ASRの概要

はじめに

音声認識ライブラリ(ASR)は、アプリケーションに以下の機能を提供します。


アプリケーションでの応用等に関しては、「音声認識ライブラリ プログラミングガイド」を参照してください。

基本仕様

入力音声

11.025 kHz、16ビットリニアPCM

多言語対応

言語依存データ切替えによる1エンジン複数言語対応

認識単語仕様 文字コード

日本語 :Shift-JIS全角カタカナ
英 語 :ASCII(ヨーロッパ言語はISO 8859-1)
中国語 :GB2312 もしくは pinyin(ASCII)
韓国語 :CP949
ロシア語:ISO8859-6

入力制限

最大100単語(文章可)、トータル1000バイトまで
(記述詳細仕様は、「認識辞書構造」参照)

メモリ資源

ROM :  64KB(コード・データ)
RAM :  3KB
ワークメモリ: 190KB
言語依存データ: 1言語あたり70~190KB(バイナリデータで提供)

ライブラリの使用方法

アプリケーションは asr.h ヘッダファイルをインクルードし、ライブラリlibmw_asr.*.aをリンクしてください。
言語を切替える際に必要な「言語依存データ」は、以下の6個のバイナリファイルを1セットとして言語ごとに提供します。
アプリケーションは必要な言語依存データセットをROMファイルシステム上に配置し、必要に応じてRAM上へ読み込み、
DataItemType構造体に値をセットしてRecogInit 関数を呼び出してください。

dtb.bin

言語依存データ群
性能向上等のバージョンアップを容易にするために5分割して提供しています。
アプリケーションはRAM上のDataItemType構造体へデータを読み込んで認識エンジンへ渡してください。

hmm.bin
phn.bin
tree.bin
mdc.bin
str.bin

環境履歴の初期データ
ハードウェアの個体差補正のために必要な履歴データです。
本データは認識処理を行うごとにエンジン内で更新され、RecogEnd 関数によって更新データを取得できます。
アプリケーションは最初の音声認識起動時に初期データを使用し、以降はエンジンから返されたデータを
RecogInit 関数へ渡すことによってハードウェアごとの個体差に合わせた認識処理をすることができます。

言語依存データのROM配置やAPIの使用手順等については、「音声認識ライブラリ プログラミングガイド」をご参照ください。
ライブラリと言語依存データは、用途に応じて複数種類用意されることがあります。

実装上の注意

認識エンジンが使用するワークメモリは、全てアプリケーション側で割当て、エンジン初期化時にアドレスを渡します。
GetWorkMemSize 関数を使用してワークメモリを確保してください。
このワークメモリはRecogEnd 関数を行うまで、無効な状態にならないよう注意してください。

履歴

2014/05/28
初版