KOMEI SUGIURA

生活支援ロボット

ロボットの音声コミュニケーション技術:言葉や能力の壁を越えるデータ指向知能に向けて from ksugiura

World Robot Summit

我々は、WRS PRC-VS (World Robot Summit Partner Robot Challenge Virtual Space)への参加を予定しています。

Team NICT Website

ロボカップ@ホーム

生活支援ロボットの実証としてロボカップ@ホーム(RoboCup@Home)に参加しています。ロボカップ@ホームはロボカップのリーグのひとつで、世界最大の生活支援ロボットのベンチマークテストです。ロボカップ@ホームでは、リビングルームやキッチンルームが再現された競技ステージで、ロボットが、物の探索、棚からユーザに言われたものを取ってくる、人と対話しながら場所を学習する等、日常生活に役立つ機能をどれだけ正確に行えるかを競います。

世界大会では、複数回、優勝(2008年、2010年)、準優勝(2009年、2012年、2017年)しています。また、ロボカップ国際委員会理事として、ロボカップ全体および@ホームリーグの運営を行っています。

20151129インテリジェントホームロボティクス研究会 from ksugiura

ロボカップ@ホームタスクの環境

競技フィールドは2LDK程度のモデルルームです. 家具や食器などを準備し,実際の生活環境に近い環境を構築します. (シンプルすぎる環境では,生活支援ロボットのための実用的な画像 処理・SLAM・把持技術の比較にならない)

  • ジャパンオープン2008の環境

  • ジャパンオープン2009の環境

  • ジャパンオープン2010の環境

  • ジャパンオープン2010の環境

pagetop

どういう経緯で始まったのか?

ロボカップはサッカー競技から始まりましたが,次第にレスキューなどの実世 界の競技も加わるようになりました. 実世界におけるロボットの応用先として,家庭・オフィス・スーパーマーケッ トなどを対象としたリーグがロボカップ@ホームリーグ(アットホームリーグと 読む)です. 2006年のリーグ開始時には,以下のような特徴を持つリーグとしてスタートし ました.

  • 環境やタスクを固定すると,その条件にのみ最適化したロボットが 高得点を挙げるようになるので,できるだけタスクを固定化しないようにし ています. タスクは,小改正,大改正,小改正,..を毎年繰り返しています. 2010年は大改正の年です.
  • 現状の生活支援ロボットの研究・開発では,確立されたベンチマーク テストが少ないため,比較評価(して論文を書くこと)が難しくなっています. @ホームリーグのタスクは,将来的に生活支援ロボットのベンチマークテ ストとして使用できるように設計されています.
  • 事前情報(家具レイアウトや物体の3Dモデルなど)は,ほとんど与えら れません. 競技日程の中のセットアップ時間に行う必要があります.

詳しい背景については, この論文 を御覧ください.

pagetop

順位はどうやって決まるのか?

タスクは計11種類あり,各タスクには,制限時間と配点(1000点または2000 点満点)があります. 例えば,"Who Is Who"タスク(7分以内に部屋の中にいる既知または未知の人物を発見し,顔 を覚える)では,1人発見すると100ポイント,覚えた人物に再度会っ た場合に認識成功で100ポイント,などと決められています. また,"Walk & Talk"タスク(部屋のマップが与えられず,人間と音声対話しなが らテレビや食器棚の場所を覚える)では,テレビや食器棚に到達できれば各 250ポイントを得ることができます. 一次予選の得点上位10チームが二次予選に進み,二次予選の上位5チームが決勝 を行います. 決勝の自由演技は審査員によって評価され,それまでのタスクの得点と合計 して最終順位が決定します.

ルールは毎年変わります. 最新版は公式サイト からダウンロードできます.

スコアの例(RoboCup 2009 "Who Is Who"タスク)

pagetop

ハードウェア

市販のマイク・カメラ・ロボット台車・レーザーレンジファインダとフリーソ フトを組み合わせれば,学生でも生活支援ロボットを作成することが可能です (50万円程度). それ以外によく使われるハードウェアとしては以下のものがあります.

  • リチウムイオンバッテリー
    電池と充電状態の管理,100V以外での充電の対応が重要です.
  • ロボットアーム,ハンド
  • ステレオカメラ
    距離を得ます.
  • 赤外線TOFカメラ
    ステレオカメラより距離が高精度に取れます.
  • 指向性マイク
    雑音をハードウェア的に抑圧します.
  • スピーカ
    高出力のものを探す必要があります.
  • ディスプレイ
    未知ユーザがロボットとインタラクションをする際に,使い方がわからず 制限時間切れで0点になるケースが多く見受けられます.
pagetop

何が難しいのか?

騒音環境での音声認識

RoboCup@Homeでは,60-85dBAの騒音環境下で,ロボットに搭載されたマイ クを用いた音声認識を行います. これらの騒音源は,(1)競技中のロボットに対する説明員の説明,(2)音楽 , (3)喚声(バースト的),などがあります. (2),(3)は主に,他のロボカップリーグで行われているサッカーやダンス競技 に由来するものです.

このような騒音環境では,マイクから50cm離れるとSN比が0以下になって しまうことも多いため,雑音抑圧が非常に重要です. また,Lombard効果(話者の声が自然と大きくなり,発音が変化する)の影 響も大きくなります.

ロボット自身が発するモータ音に対する対処を質問されることがありますが,指 向性マイクとパーティクルフィルタによる雑音抑圧を用いて充分に対処できています. 他のチームでも,モータ音に困っているところはあまりないようです. この理由は,1)周囲のノイズに比べてモータ音は小さい,2)モータ音は 人間の声の周波数帯域とは異なる,3)モータ音は方向が決まっている(ハードウェ アと関節角の情報を用いればわかります),などと考えられます.

発話区間検出

発話区間検出(Voice Activity Detection, VAD)は,マイク入力からユーザ発話 の部分を推定するものです. 音声認識エンジンに渡す前段部と考えればよいと思います. ユーザが認識されない場合,「声が小さい」「発話の一部が切れた」であ るケースが,「音声認識リジェクト」のケースより(経験的に)多く発生してい ます. ディスプレイを介して,ユーザにボリュームメータとVAD結果を常にフィードバックするのが良 策です. ディスプレイを見せれば,ユーザは自分の発話に問題(声の大きさ,言いよどみ など)があったことを理解して,言い直してくれます.

unknown personとの音声対話

タスクの一部では,非ネイティブの英語話者であるユーザとの音声対話が 求められます. また,ユーザの名前(英語名とは限らない未登録語) を記憶する必要があったり,ロボットが自身の使い方をユーザに伝えたり することも求められます.

pagetop

よくある質問(FAQ)

Q1. 日本大会・世界大会の「who is who」タスクにおいて,ロボットとコミュニケーションする言葉は日本語でしょうか?それともその他の国の言葉でしょうか?

A1. 世界大会では英語のみです. 日本大会では日本語が基本ですが,英語でもOKです.

Q2. 日本大会と世界大会でルールに違いはありますか。

A2. 基本的に違いはありません.

Q3. 日本大会のタスクでは,物体名・人物名リストは英語で表記されているのでしょうか?

A3. 日本大会では,人物名は日本語名です. 人物名リストはセットアップ日に公表されるので,詳しい内容は明らかにできませんが,実行委員が 特定の基準に基づき一般的な日本人名を収集して作成します. 読み仮名も与えられます.

Q4. 日本大会と世界大会の違いは何ですか。

A4. ルール上の違いについては,A1-A3をご覧ください. 日本大会は日程が短いため,Open Challengeなど一部のタスクは行われない可能性があります. Open Challengeが行われない理由は,Finalと内容が似ているためです. 世界大会は,決勝までに「足切り」を行う「ステージ制」を採用しています. 一方,日本大会の出場チームの総数はそれほど多くないので,それまでのスコア により足切りをすることはありません. ただし,総合順位にはそれまでのスコアが反映されるので,決勝前に総合順位 がある程度決まっているかもしれません.

Q5. General Purpose Service Robot(GPSR)では、ロボットにどんな命令を行うのですか?

ロボットへの命令は、文を(ある程度)ランダムに生成するプログラムを用いて生成されます。 生成された命令をチームメンバーが読み上げることで、ロボットに伝えます。 公平性のため、命令以外の情報をロボットに伝えることはできません。 ただし、ロボット名を命令の前に発話することは許可されています。 つまり、「ロボット、ペットボトルを取ってきて」のような発話はOKです。

  • 前にいる人の名前を聞いて、 その人を追跡して、 フィールドから出て.
  • テレビボード へ移動して、 コーヒー を取って、 外に出て.
  • ダイニングテーブル へ移動して、 レッドポッキー を検出して、 それを把持して.

Q6. GPSRで使われる文生成器は公開されていますか?

公開されています。 英語版日本語版 があります。 これらはpythonスクリプトで、Linux上で動作を確認済みです。 これらの文生成器は、昨年の世界大会で用いられたものです。 今年の世界大会では、ある程度同様の文が生成されると予想されますが、必ずし も同じ文生成器が用いられるとは限りません。 このことを承知のうえ、ロボットのテスト・性能評価のためにお使いください。

pagetop
pagetop