松下電器産業は99年7月22日,辞書を利用することなく高精度に全文検索できる技術「字面解析型単語分割方式」を開発した。辞書の代わりに,検索対象となる文書から単語を自動抽出して作成した単語リストを使って単語を分割するのが特徴。松下電器産業は,大規模システム向けの検索ミドルウエア「PanaSerch」の次期バージョンで新技術を採用する方針で,2000年度の製品化を目指す。 従来の全文検索では,必要な情報を確実に検索できない 現状の全文検索の方法として,(1)文書中の文字列と検索文字列を単純にマッチングする方法,(2)辞書に登録した単語を参照しながら単語分割し,検索する方法---の2種類がある。しかし,いずれの方法にも,検索精度を低下させる欠点がある。 単純にマッチングする方法では,不要な情報(検索ノイズ)を表示してしまうとういう欠点がある。例えば,京都に関連する情報を収集したい利用者が,「京都
![松下電器,辞書なしで高精度の全文検索ができる技術を開発](https://cdn-ak-scissors.b.st-hatena.com/image/square/bed39b5962a5d552c95b6d796db8f55e72d32943/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fimages%2Fn%2Fxtech%2F2020%2Fogp_nikkeixtech_hexagon.jpg%3F20220512)