KOMEI SUGIURA

新着

60QA

論文執筆を査読者からの質問に回答する作業と捉え、 60個程度の質問に回答すると論文がいつの間にかできあがる、という方式で論文執筆を仕組み化しました。
60 Questions and Answers

pagetop

ソフトウェア

言語識別機能@VoiceTra

音声翻訳アプリの多くは、入力される言語が何語であるかをあらかじめ指定する必要があるため、ユーザにとって不便でした。さらに、相手が話している言語が分からない場合には、何語かを指定すること自体が困難でした。 1.5秒程度の短い発話から即座に言語を識別する技術を開発し、NICTの音声翻訳アプリVoiceTraに導入しました。

VoiceTraのダウンロード方法は公式ページをご覧ください。 言語識別機能は、VoiceTraを開き、言語変更をタップ→モードを「自動」に設定することで使用できます。

pagetop

Deep Flare Net

Solar flare is one of the causes of electromagnetic interference and affects aircrafts' routes. We developed Deep Flare Net based on ResNet and achieved the world's highest performance. The experimental results are shown in this paper.

We published the source code of Deep Flare Net. Please use the following git command to download it.

$ git clone https://github.com/komeisugiura/defn18.git

The package contains a readme file, which explains how to reprodoce the results. For more information, please take a look at this GitHub page.

pagetop

RoboCup@Home 2015 GPSR sentence generator

2015年のロボカップ@ホームジャパンオープンで使わ れたテスト用スクリプトです。英語版と日本語版を含みます。 以下からダウンロード可能です。
https://github.com/komeisugiura/GPSRsentence_generator

pagetop

RoboCup@Home 2011 General Purpose Service Robots文生成器(日本語版)

2011年のロボカップ@ホームジャパンオープンで使われたテスト用スクリプトです。 以下のような文を生成します。

ダウンロード
pagetop

RoboCup@Home 2010 General Purpose Service Robots文生成器(英語版)

2010年のロボカップ@ホーム世界大会で使われたテスト用スクリプトです。 以下のような文を生成します。

ダウンロード
pagetop

Linux版BarrettHand用ソフトウェア

LinuxでBarrettHandを動かすためのソフトウェアです。

ダウンロード
pagetop

データベース

NICT声優対話コーパス

音声合成用コーパスを公開しました。日本語の音声合成用公開コーパスとしては、世界最大級です。 通常の合成用のコーパスでは独話環境で収録しますが、本コーパスは声優掛け合い対話を収録した点が特徴です。 内容の説明はREADMEをご覧ください。 以下の形式のものを、14,179発話含みます。

  • 音声ファイル
    例:
    F128_TEL20080214-04G_03920_V01_T01.wav

    F128_TEL20080214-04G_03960_V01_T01.wav

    F128_TEL20080214-04G_03980_V01_T01.wav
  • 書き起こしファイル
    例:
    それでこの湯豆腐が、ほとんどの観光客の方が希望されるようなものなんですけれども。
    だいたい予算が三千円ぐらいになるんです。
    それから店構えがこのようなものなんですけれども。
  • 自動生成した読み
    例:
    ソレデ コノ ユド'ーフガ ホト'ンドノ カンコ'ーキャクノカタガ キボーサレルヨ'ーナモノ'ナンデスケレドモ
    ダイタイ ヨサンガ サンゼンエング'ライニ ナ'ルンデス
    ソレカラ ミセガ'マエガ コノヨ'ーナモノ'ナンデスケレドモ
他に、ロボット対話評価用:224発話、対話システム評価用:112発話、を含みます。

ALAGIN会員は無料でダウンロード可能です。詳細なダウンロード条件については、 ALAGINのページをご覧ください。

pagetop

RoboCup 2011イスタンブール大会 ノイズデータベース

音声ファイルをダウンロードし、実験室で再生しながらロボットの音声認識性能 の評価を行ってください。 ロボカップ@ホームの騒音環境がシミュレートできます。

Who Is Who (1h42m, 188MB)
ダウンロード
Enhanced Who Is Who (1h44m, 192MB)
ダウンロード
Shopping Mall (0h28m, 52MB)
ダウンロード
pagetop

アーカイブ(公開終了)

Rospeex On-Cloud / Rospeex On-Premise

Rospeex On-Cloudは10ヵ国語に対応したクラウド型音声コミュニケーションツールキットです。ROS(Robot Operating System)上で動作するので、音声認識・合成・対話処理機能を容易にロボットに組み込み可能です。 Rospeexには、On-Cloud版とOn-Premise版の2種類があります。 Rospeex On-Cloudは、2013/9/1-2018/9/30の期間中、お試し版として無料登録不要で公開していました。 Rospeex On-Premiseは、「インターネットに接続できない、クラウド上に音声を送信したくない、自社サーバ上でカスタマイズしたい」という用途に最適です。提供状況については、個別にお問い合わせいただければ、と思います。

API(Pythonまたは C++)を用いて10行程度で簡単な対話を実現できます。自然で親しみやすい音声の合成が可能な非モノローグ音声合成にも一部対応しています。

pagetop

非モノローグ音声合成

サービスロボット向けのクラウド型音声合成を、2013/9/1-2018/9/30の期間中、お試し版として無料登録不要で公開していました。 合成音声作成に使用したコーパスを、「NICT声優対話コーパス」として公開しました。

  • FirefoxかGoogle Chromeでお試しください。 IEとSafariでは合成できません。
  • 学術研究目的のみにお使いください。 商用目的に利用されたい場合は別途ご相談ください。 ロボット開発者向けに作ったので、ロボットに応用していただけると個人的に ありがたいです。
  • 動作は無保証です。自己責任でお使いくだ さい。
  • 使用した場合は以下の論文を引用して下さい。
    K. Sugiura, Y. Shiga, H. Kawai, T. Misu and C. Hori: "A Cloud Robotics Approach towards Dialogue-Oriented Robot Speech," Advanced Robotics, Vol. 29, Issue 7, pp. 449-456, 2015.

C++サンプルコード

#!/usr/bin/env python3
# coding: utf-8
"""
Python3 sample code for rospeex TTS
"""

import base64
import json
import requests

URL = "http://the_service_was_discontinued"


def main():
    databody = {"method": "speak",
                "params": ["1.1",
                           {"language": "ja", "text": "この声を再生します",
                            "voiceType": "F128", "audioType": "audio/x-wav"}]}
    response = requests.post(URL, data=json.dumps(databody))
    tmp = json.loads(response.text)
    wav = base64.decodestring(tmp["result"]["audio"].encode("utf-8"))
    with open("out.wav", "wb") as f:
        f.write(wav)


if __name__ == "__main__":
    main()
#!/usr/bin/env python2
# coding: utf-8
"""
Python2.7 sample code for rospeex TTS
"""
import base64
import urllib2
import json

URL = "http://the_service_was_discontinued"

def main():
    databody = {"method": "speak",
                "params": ["1.1",
                          {"language": "ja", "text": "こんにちは", "voiceType": "*", "audioType": "audio/x-wav"}]}
    request = urllib2.Request(URL, json.dumps(databody))
    response = urllib2.urlopen(request).read()
    tmp = json.loads(response)['result']['audio']
    wav = base64.decodestring(tmp.encode('utf-8'))

    with open("out.wav", "wb") as f:
        f.write(wav)


if __name__ == "__main__":
    main()

pagetop

ROSを経由しない音声認識

Linux以外ではROSを使うことが難しいことから、他のOSで利用するための音声認 識単体のみサービスを公開していました。現在は公開を終了しています。

  • 学術研究目的のみにお使いください。 商用目的に利用されたい場合は別途ご相談ください。
  • 動作は無保証です。自己責任でお使いくだ さい。

C++サンプルコード

#!/usr/bin/python3
# coding: utf-8
# Python3サンプルコード

"""
Usage: python3 sample.py input.wav
"""
import sys
import base64
import json
import requests

URL = "http://the_service_was_discontinued"

if __name__ == "__main__":
    argv = sys.argv
    with open(argv[1], "rb") as f:  # read a wav file
        wav = f.read()
        b64encoded_wav = base64.b64encode(wav).decode("utf-8")
        databody = {"method": "recognize",
                    "params": ("ja",
                               {"audio": b64encoded_wav, "audioType": "audio/x-wav", "voiceType": "*"})}
        response = requests.post(URL, data=json.dumps(databody))
        json_obj = json.loads(response.text)
        print(json_obj["result"])

# -*- coding: utf-8 -*-
# Python2.7サンプルコード
"""
Usage: python sample.py input.wav
"""
import sys
import base64
import json
import urllib2

# Cloud-based speech recognition URL
URL = "http://the_service_was_discontinued"

def read_wavfile(filename):
    with open(filename,'rb') as rf:
        wav = rf.read()
    return wav

def post_to_recognizer(wav):
    buf = base64.b64encode(wav)
    json_data = { "method":"recognize",
                  "params":( "ja",
                             {"audio":buf, "audioType":"audio/x-wav", "voiceType":"*" } ) }
    json_obj = json.dumps(json_data)
    req = urllib2.Request(URL, json_obj)
    cont = urllib2.urlopen(req).read()
    return cont

def print_text(json_str):
    json_obj = json.loads(json_str)
    print json_obj['result'].encode('utf-8')

if __name__=='__main__':
    argv = sys.argv
    wav = read_wavfile(argv[1])
    recognition_result = post_to_recognizer(wav)
    print_text(recognition_result)

pagetop

京のおすすめ

iPhone, iPod touch, iPadで使用できます。 2010年に構築した音声対話システム(京都観光案内)の、副産物的アプリを作りました。 研究で収集したデータを使った、観光スポット推薦アプリです。 2013/1/1時点で2万ダウンロードされています。 現在、京都が対象ですが、他のスポットや地域にも広げられれば、と考えています。 本アプリのデータベースや手法の活用に興味がある方は、ぜひご連絡ください。

[2013/03/13追記]
京都観光Navi(京都市観光局)に京のおすすめ のアルゴリズムが導入されました。 [2018/06/1追記]
公開が終了しました。

[2015/07/31追記]
京のおすすめの公開を終了しました。

pagetop