「ボイステック革命」の真意は、コンテンツではなくインフラにある。

僕がWEB業界にいた2018年ごろ、「Vtuberの次は音声がくる!」と界隈で騒がれていた。

ちょうどMERYの創業者である中川綾太郎氏がスタンドエフエムをリリースした時期でもあったが、正直なところ、当時の僕には「次に〝音声がくる〟」ことの真意がいまいちよくわからなかった。

WEBコンテンツの表面上の大きなうねりは、テキストから始まり、YouTubeを代表とする数分以上の長編動画、そしてTikTokなどの短編動画やLIVE配信映像へと、〝視覚体験を中心としたコンテンツ〟の範囲内で少しずつ拡大と分散を続けてきた。

そこに音声特化型のコンテンツが加わる…?

まあ当時は深く考えることもなく、例えばVtuberがニッチな市場の片隅を握るに留まっているように、数あるコンテンツのなかの1ジャンルとして小さな市場を形成するだけだろうと思っていた。

僕自身が日常で音声特化型のコンテンツに触れるのは、iTunesで音楽を聴くときくらいだし、正直なところ、ラジオに魅力を感じたこともない。

・・・というか、映像が必要ないなら別にYouTubeのバックグラウンド再生でも良いわけで、なぜ音声に特化したプラットフォームをわざわざつくる必要があるのか、そして音声市場への期待が集まっているのかがまったく理解できなかった。

ところが、ふと衝動買いした『ボイステック革命  GAFAも狙う新市場争奪戦』を読んで、〝音声がくる〟ことの真意が少し見えた気がした。

それをちょっとこれからまとめてみます。

コンテンツではなく、インフラとしての音声

まず、〝これから音声がくる〟という言葉を、コンテンツの話と捉えていては、それが本当に意味するところを読み取ることができないということに気づかされた。

この本には、GAFAが積極的に音声サービスに投資をしている旨が記されている。

重要なのは、世界屈指のプラットフォーマーたちがこぞって音声コンテンツそのものや音声によるSNSづくりに資金を当てていることではなく、その根幹にある、近い未来に〝音声による入出力がインフラ化した社会〟が実現されるだろうというそもそもの推論に目をむけなければいけない。

これが、この本で得た最大の気づきだ。

今までの視覚情報を中心としたインターネット体験では、キーボード操作やフリックなどで文字を入力したりアプリを開いたりと、物理的な動作(※だいたい手の指を使う)がその前提としてあった。

しかし、音声による入出力を前提とするスマートスピーカーやSiriが主流化することで、操作のやり方が一気に変わる。

「ここから一番近い蕎麦屋を教えて」
「今日の予定を教えて」
「LINEで〇〇さんに△△と返信して」

など、インプットにしろアウトプットにしろ、すべての目的が音声による指示と応答により完結するようになる。

PCやスマホを指で操作するより、口で指示するほうが肉体的に〝楽〟だ。

そして、あらゆるテクノロジーは人間の〝楽〟に貢献する運命にある。

そういうわけで、音声による入出力がインフラ化した社会が近々実現される、という推論は、かなり確度の高いのではないかと素人目にも感じられる。

ここから一歩進んで、こうした音声によるインプットとアウトプットが当たり前になった社会では、当然、コンテンツも音声中心のものにシフトしていく。

したがってボイステック革命とは、コンテンツを前提とした考え方ではなく、〝インフラが先で、そこにコンテンツが付随する〟という理屈で初めて理解できるわけだ。

もちろん、音声で指示をしてモニターを再生したりAbemaなどのチャンネルを切り替えたりと、視覚中心のコンテンツもそのまま残るはずだが、運転中や運動中などの視覚が奪われる日常のひとこまでは音声だけのコンテンツへの需要が増してくるはずだ。

これは慣れの問題で、今の僕のように音声特化型のコンテンツにあまり馴染みのない人間も、音声による入出力が当たり前になった社会では、音声コンテンツへの消費に慣れ親しんでいくに違いない。

コンテンツでは、Youtubeの〝ドッキリ〟のような「型」が生まれる?

インフラに紐づいている以上、音声特化型コンテンツの需要は、ニッチではなくマス市場で膨らんでいく未来が予想できる。

そうなると、コンテンツのクオリティも成熟していき、音声コンテンツならではの「型」が次第に形成されていくと思われる。

例えば動画なら、YouTubeが生んだ最大の「型」に〝ドッキリ〟というものがある。

これは、「①仕掛け人の説明(起)」「②仕掛ける(承)」「③仕掛けられた側があたふたする(転)」「④ネタバラシ(結)」という4つのフェーズを経るお決まりの物語構造だが、こうした音声コンテンツならではの「型(=ジャンル)」が生成されるはずだ。

配信者側は、この「型(=ジャンル)」をいち早く作り上げ、定着させた人が音声コンテンツ界のトップインフルエンサーになるように思う。


・・・とまあ、かなり荒削りですが、今のところこのような感じでボイステック革命の全容を理解しています。

気になった方はぜひ読んでみてくださいね。