トークン化や品詞のタグづけ、基本形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基本的な言語解析モジュール 製品評価版お問い合わせフォーム 高精度な言語解析を実現 Rosette Base Linguictics (基本言語解析)はポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。 テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基本形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日本語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計さ