NECは2013年11月14日、大量データから特定の意味を含む文書を検出する“テキスト含意認識”の技術を改善したと発表した。約700万文のテキストデータを処理すると、従来のやり方では約1.3時間かかるが、新方式では0.2秒で終わるという。顧客の声やSNSの反応といった非定型データの分析に向く。 テキスト含意認識技術とは、二つの文が同じ意味を含むかどうかを判定する技術である。文の表現が異なっても意味が同じものを検出する。例えば、「私はリンゴが好きだ」に対して、「僕はアップルが好物だ」は含意(意味が同じ)であり、「彼はリンゴが好きだが私は嫌いだ」は非含意(意味が異なる)である。 NECはもともと、テキスト含意認識に強いという。具体的には、単純に単語の一致/不一致を検出するだけでなく、文中における単語の重要度や主語/述語などの文構造を考慮する方式を採用した。これは、単語の重要性で候補を絞るプロセ
![特定の意味を含む文書の検出で新方式、NECが1.3時間を0.2秒に短縮](https://cdn-ak-scissors.b.st-hatena.com/image/square/bed39b5962a5d552c95b6d796db8f55e72d32943/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fimages%2Fn%2Fxtech%2F2020%2Fogp_nikkeixtech_hexagon.jpg%3F20220512)