Snooky's reaction to the metronome.
![Snooky and the Metronome](https://cdn-ak-scissors.b.st-hatena.com/image/square/3ea5fe3ab25aea8ed3c130eadca245e04741a7cb/height=288;version=1;width=512/https%3A%2F%2Fi.ytimg.com%2Fvi%2Fkdmd5fenroU%2Fhqdefault.jpg)
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
PHP 用の N-gram 生成ライブラリ、 php5-Text_Ngram を Github に公開しました。 個人的な PHP 5.3 の練習ということで作ったので、 namespace 等を使っています。 5.3 未満では動きません。 yuya-takeyama's php5-Text_Ngram at master - GitHub プロダクションとしての利用は想定していませんので、利用者ご自身の責任においてご利用ください。 Text_Ngram 文字列を N-gram 形式に分割するためのライブラリです。 N-gram オブジェクトを生成し、配列のように扱うことができます。 動作環境 PHP5 (>= PHP 5.3) インストール Openpear 経由でインストールできます。 sudo pear channel-discover openpear.org sudo pear
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く