[B! 検索エンジン][自然言語処理] rin51のブックマーク

rin51 id:rin51

検索エンジンと自然言語処理に関するrin51のブックマーク (2)

第6回 N-gramと形態素解析との比較 | gihyo.jp
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要はじめに、2つの手法をおさらいしてみます。形態素解析検索対象のテキストを形態素解析を行い分かち書きを行う分かち書きした単位を見出し語として転置インデックスを作成する転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する分解した文字列片を見出し語として転置インデックスを作成する検索語をN文字単位の文字列片に分け検索を行う文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
rin51 2013/02/15
形態素解析

nlp

自然言語処理

分かち書き

検索エンジン

N-gram
リンク
第4回形態素解析のしくみ | gihyo.jp
ソフトウェア的な索引では見出し語に対して、その見出し語が使われている文書（ファイル名、文書ID等）のリストを保存します。検索時は索引から見出し語を見つけ、その見出し語が使われている文書のリストを取得するだけなので、高速に検索が行えます。全文照合方式と索引方式には、それぞれメリットとデメリットがあります。全文照合方式は、検索のたびに対象のテキストデータをメモリ上に読み込んで照合処理を行うため、大量の検索対象の場合、どうしても検索時間がかかるという欠点があります。索引方式は、高速に検索が行える反面、あらかじめ索引を作成しておかなければなりません。索引の作成処理は、かなり負荷の高い処理になってしまいます。このため、全文照合方式と索引方式には、それぞれ向き、不向きがあります。利用する場面に応じて使い分けるのがポイントです。検索対象が少量で検索回数も少ないなら全文照合方式、検索対象が大量で頻繁
rin51 2013/02/15
形態素解析

nlp

自然言語処理

分かち書き

検索エンジン
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

関連タグで絞り込む (4)

検索エンジンと自然言語処理に関するrin51のブックマーク (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (4)

検索エンジンと自然言語処理に関するrin51のブックマーク (2)

第6回 N-gramと形態素解析との比較 | gihyo.jp

第4回 形態素解析のしくみ | gihyo.jp

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

第4回形態素解析のしくみ | gihyo.jp