NECは2013年11月14日、大量データから特定の意味を含む文書を検出する“テキスト含意認識”の技術を改善したと発表した。約700万文のテキストデータを処理すると、従来のやり方では約1.3時間かかるが、新方式では0.2秒で終わるという。顧客の声やSNSの反応といった非定型データの分析に向く。 テキスト含意認識技術とは、二つの文が同じ意味を含むかどうかを判定する技術である。文の表現が異なっても意味が同じものを検出する。例えば、「私はリンゴが好きだ」に対して、「僕はアップルが好物だ」は含意(意味が同じ)であり、「彼はリンゴが好きだが私は嫌いだ」は非含意(意味が異なる)である。 NECはもともと、テキスト含意認識に強いという。具体的には、単純に単語の一致/不一致を検出するだけでなく、文中における単語の重要度や主語/述語などの文構造を考慮する方式を採用した。これは、単語の重要性で候補を絞るプロセ