NTT 情報通信用語集

音声認識

人が話した音声から何を話したかを計算機によって判別する技術。正確には，「想定された範囲の言葉の中から，入力された音声に最も近い候補を探し出す」技術。

音声認識には想定する内容の自由度の違いによって，(1)単語認識，(2)定型文認識，(3)ディクテーション，に分けることができる。

(1)　単語認識

入力される音声の中に１つの単語が発声されることを想定した認識。想定された認識対象単語の中から入力された音声に最も近い単語が認識結果となる。

(2)　定型文認識

認識対象となる文の範囲を限定できる場合に用いられる。

(3)　ディクテーション（文章認識）

話した言葉すべてをできる限り忠実に認識するためのもので，通常，数百～数万語の単語を任意の組合せで表現できる文を認識対象とするもの。

先頭へ