NEC、経路制御や裁判員を支える音声認識などを公開
NECは6月29日、同社の研究機関「中央研究所」の活動に関する説明会を都内の本社で開催した。ここでは、音声認識技術など現在研究中のテーマの解説とデモンストレーションが行なわれた。
http://ascii.jp/elem/000/000/432/432032/
年間280億円が研究開発に
中央研究所の説明を行なう國尾武光所長
中央研究所の組織図(同研究所のWebサイトより
説明会は、執行役員で中央研究所長の國尾武光氏による、NECのR&D(Research and Development)体制および中央研究所の解説で始まった。中央研究所はC&Cイノベーション研究所、サービスプラットフォーム研究所など複数の研究所で構成され、NEC全体のR&D費用2800億円の約1割が投入されている。約1000名の技術者/研究者を擁する規模の大きな研究機関だ。
國尾氏によると、製品開発といった「今日」のR&Dをビジネスユニット(事業部門)が担当するのに対し、中央研究所は「将来の事業を創出する革新的なイノベーション」と「現事業を大きく発展させる継続的なイノベーション」の創出を目的。「明日」の研究開発を行なう部門であるという。
研究所の説明に続いて、研究内容のデモンストレーションが行なわれた。ここでは、ネットワークに新たな機能を加えるプログラマブルフロー・スイッチ、半世紀近い開発を経て製品化も行なわれつつ、研究が続けられている技術として音声認識技術を紹介しよう。
NGNの先を目指すプログラマブルフロー
現在のインターネットは、経路制御機能とデータ転送機能を搭載したルータによって構成されている。ところがインターネットはセキュリティや通信品質を考慮して作られていないため、ウイルスの蔓延を引き起こしたり、通信が途絶えることは珍しくない。こうした弱点を克服すべく考えられたのが、最近話題のNGN(Next Generation Network)だ。
NGNではネットワークがセキュリティや品質制御の機能を持つため、通信品質は向上し、セキュリティも確保できる。しかしNGNであっても、ネットワークとして行なえることは、メーカーがルータに搭載した機能に限られる。つまり、「レディーメイドネットワーク」だ。これに対しプログラマブルフロー・スイッチが目指すのは、通信事業者が新サービスを柔軟に実現できる「オーダーメイドネットワーク」となる。
プログラマブルフロー・スイッチ自体が搭載する機能は、データ転送だけ。ネットワークの構築と運営に必要なセキュリティや品質制御、そして経路制御は、別途用意された「制御サーバ」が集中して行なう。
たとえば、これまではある拠点から目的の拠点まで通信を行なう場合、音声であろうと映像であろうと同じ経路を経由していた。この結果、映像によって帯域が圧迫され、音声が途切れるといった状況が生じることがあった。
現在のIPネットワークの動作
一方、プログラマブル・フローでは、制御サーバが経路を決定することで、音声はホップ数の少ない経路、映像は帯域に余裕のある経路といった制御が可能になる。制御機能がプログラマブルになるため、柔軟な制御が可能になるという。
目的に応じたネットワーク制御機能を適用できるプログラマブルフロー
会場のデモンストレーションでは、6台のスイッチ(実際は2台のスイッチを分割)で構成されたネットワークを用意。同じ経路を通るファイル転送の影響で画質が低下している動画配信の経路を手動で変更すると画質が向上する様子が披露された。
デモではスムーズな切り替えが行なわれたが、プログラマブルフロー・スイッチは開発中の技術だ。ネットワークのインフラとして使うための原理の確認はできているが、製品化に向けてはまだまだ課題が残る状態とのこと。インターネットは、個々のルータが経路制御を行なうことで、障害に強いネットワークを実現している。この原則をひっくり返した電話の交換機型ともいえるプログラマブルフローが実用化されたとき、インターネットはどう変わるのだろうか。非常に興味深い研究といえるだろう。
プログラマブルフローのデモ環境。左が制御サーバで、中央がプログラマブルフロー・スイッチ
世紀にわたる技術が投入されたVoiceGraphy
音声認識は、NECが半世紀近くにわたって取り組んできたテーマとなる。その祖先は、1960年に京都大学と共同で開発(試作)した「音声タイプライタ」にまでさかのぼる。ここで用いられているのは、人間が「あ」と発音すると「あ」と認識されるという技術。つまり、単音ごとに区切って発音しなければならない「単音認識」の装置だ。
その後も研究は進み、1980年代には単語認識、1990年代には定型文認識、そして2000年に入って自由文の認識が可能になり、現在では話し言葉の認識が可能なまでに達したという。
半世紀にわたるNECの音声認識技術への取り組み
こうした研究の積み重ねで開発された製品の1つとして紹介されたのが、2007年に製品化されながらも今も改良が続く音声認識ソリューション「VoiceGraphy(ボイスグラフィー)」だ。これは会議録作成を支援する議事録作成支援ソリューションで、
事前登録していない話者でも10万語強の語彙や言い回しを認識
複数の話者が入れ替わり発言しても平均80%の認識率
紙をめくる音や咳払いなどの雑音に対しても強い
といった特徴がある。
VoiceGraphyは、これまでWindows上で動作するソフトウェアとして販売されていたが、今年から「SaaS型会議録作成支援サービス」としての提供も開始。会議音声1時間あたり3万円で利用できるという。会場では、このサービスのデモンストレーションが行なわれ、株主総会の冒頭の議長による挨拶がテキスト化される様子が公開された。一部数字などに誤認識はあったが、おおむね正確にテキスト化されていた。
VoiceGraphyによる音声認識のデモ
なお、会場の説明員によると、認識を行なうにはマイクに向かってはっきり話している必要があり、離れた位置に置いたボイスレコーダーで録音した音声の認識などは不得意だという。株主総会やセミナー、講演など、話者がマイクを使って話すシチュエーションが対象となっているのは、こうした理由があるようだ。
裁判員裁判を支える音声認識技術
このVoiceGraphyの技術は、いよいよ始まった裁判員裁判用法廷への採用も決まっているという。裁判員裁判では、法廷で行なわれた被告人質問などの内容をテキスト化し、裁判官と裁判員が行なう評議の資料として使う。すでに新聞テレビなどで報じられているが、このテキスト化にはNECの音声認識技術が使われているのだ。
すでに、裁判員裁判を行なうすべての法廷に導入されており、8月の裁判員裁判の公判を目標に、検証が行なわれているという。方言を話す多くの人も公式の場では標準語を使うが、関西弁の人はそのまま関西弁を使うことが多いという。そのため、本製品においても、標準語に加えて関西弁の認識が対応済みとなっている。