シンガポール通信ー音声入力はなぜ使われないか

日英自動翻訳ソフトに関して書いた私のブログ記事に対して以下のようなコメントが寄せられた。

「12月18日の新聞に小さく記事が出ていた。成田空港でレンタルで『音で通訳するスマホサービス』が開始された。日本語と英語、日本語と中国語の２種類の通訳ができる音声通訳ソフトをスマホに搭載。スマホに向かって日本語で話すと、ソフトがその日本語の文章を認識して外国語の文章に翻訳。それを音声変換する仕組み。１日レンタル料が１３００円、ポケットサイズで、外人が日本に来日した際にも使える。来年には、関空でおレンタルサービスするという。語学の苦手な愚生は、使いたい衝動に駆られる。」

このコメントに対しては既に回答しておいたが、重要な話なので少し書き直して、ブログ本文で再度取り上げたい。基本的にはコメントの回答と同じなので、そちらを既に読まれた方には最初にお断りしておく。

音声翻訳は音声関係の研究者の長い間の夢であり、私自身もNTTで音声認識の研究をやっていた時はそれが大きな目標であった。その後日本では、ATR（その後研究グループはNICTという別の研究機関に移った）やNECを中心に多くの研究機関で研究が続けられ、世界的にも多くの国で研究が行われてきた。特に、共通語である英語以外の言語を使っているアジアの国々では重要な課題であり、韓国・中国などでも盛んに研究が行われて来た。シンガポールの私の研究所でも中国語と英語の間の音声翻訳の研究が行われている。

ある意味でそれらの多くの研究の成果が実り、スマートフォンに搭載されて実際にサービスに供されるようになったというのは、本来ならば喜ばしい事である。音声研究者としては喝采を叫ぶべきであるし、またマスコミでも大々的にニュースとして取り上げられてしかるべきものではないだろうか。

ところがそれがあまり話題にもならなくて「小さく記事が出ていた」という事になっているのはなぜだろう。実は音声研究者の間でもこれは別に大きなニューとして考えられているわけではなくて、ある意味で冷静にとらえられている。これは実は重要な問題ある。考えられる原因としては、次の事があげられる。

１．グローバリゼーションが進み、異言語間の人々の壁が低くなった。つまり共通語としての英語が普及し、ごく簡単なコミュニケーションなら誰でも英語でできるようになったため、簡単なコミュニケーションのレベルで音声翻訳を使うメリットがなくなった。もちろん高度なビジネス英語を使いこなすのは現在でも大変であるが、そのレベルになると現在の自動翻訳でも困難なので、結局は通訳をお願いするという事になる。つまり、時代と共に世の中のニーズが変わってきて、簡単なレベルでの音声翻訳に対するニーズがなくなってきたということではないだろうか。

２．音声認識や音声翻訳は長い間夢の技術と考えられており、新しい技術が出た時には何度もマスコミで大々的に取り上げられて来た。ところがその実力は大した事がない事がすぐわかり熱が冷めてしまった。そのような事が何度も続いたので、マスコミ側も音声翻訳の新しいニュースが出ても、大々的に取り上げる事がなくなった。いわゆるオオカミ少年の話と同じことである。

３．そしてさらに重要な事として、「音声入力」というのはどうも人間側からすると使いたいインタフェースではないのではないかということが指摘される。私も含めて音声関係の研究者は「音声入力」こそが究極のインタフェースであると信じて研究を続けて来て、最近のスマートフォンにはiPhoneもアンドロイドも地図検索などの入力を音声でできる機能がついている。ところがこれらのスマートフォンの音声入力機能を使っている人を見た事がない。

もしかしたら、スマートフォンのタッチインタフェースはいわゆる「かっこいい」インタフェースとして受け入れられているのに、一般の人々は音声入力を「かっこわるい」インタフェースだと直感的に感じてしまっているのではないか。それが使われない理由ではないか。つまり音声入力は人間の直感に合わないというわけである。

特にこの最後の点は、誰も指摘しないのだけれども（指摘すると音声研究者は自分の首を絞める事になるため）、どうもここに本質的な問題点があるのではないかと私は思っている。人間にとって直感的な入力手段と考えられて来た音声入力が、実は直感的な入力手段ではない。なんだか逆説じみるし、私自身もまだ確信が持てるわけではないが、音声研究者としては真剣に考える必要があることではないだろうか。