あなたが音声対話を行うロボットを開発したいとします。 検索エンジンで調査し、オープンソースソフトウェアか、OSに付属の音声認識や 音声合成を使うことが合理的でしょう。 しかし、開発を始めると認識結果はめちゃくちゃで、対話どころではないことに 気づくでしょう。 ロボットの音声対話機能開発では(ロボット特有の問題などで)開発に時間がかかる割には期待したほどの性能が出ないことが多いのです。 一方、スマホなどで一般的になった音声認識では、スマホ端末上で認識処理を行 わない(=クラウド上の高性能なマシンで処理)ことで高い認識精度を可能にしています。
クラウドロボティクスと呼ばれる分野では、同様にクラウド上のリソースを積極 的に利活用することを目指しています。 我々は、クラウド型音声認識・音声合成を行うツール rospeexを開発しています。 rospeexでは、NICTのサーバだけでなく、クラウド上で利用可能な第三者のサー バを簡単に使えるようにしています。
ここ10年で無線ネットワーク環境は劇的に進歩しました。 無線ネットワーク環境を前提とすれば、ロボットの機能の一部をクラウドで処理す ることで低コストと高機能を両立できます。 もちろん、どれほどネットワークが高速になっても、安全上やコストパフォーマ ンスからロボット内で処理するべき機能はゼロにはなりませんが...
また、いわゆる「ロボット的」な合成音声とは、無機質で不自然な合成音声の代名 詞です。 なぜ、ロボットの合成音声は「ロボット的」なのでしょうか? 合成音声は「ロボット的」という認識が広まってしまったのは、たまたまそのような合成音声が普及した期間が長かっただけで、表現力豊かな合成音声が可能だとしたら? 声優や俳優は訓練により表現力豊かな声で話すことができますが、訓 練なしにそのような声を出せる人はほとんどいません。 少なくとも発声訓練を受けていない人間より、ロボットは表現力豊かな合成音声で 話せないのでしょうか? そのような問題意識から「非モノローグ音声合成」を開発しました。