snailramperのブックマーク - はてなブックマーク

「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記
というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会＠東京 : ATND私の発表は、シルバーウィークにもう１回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回自然言語処理勉強会＠東京 (#tokyotextmining)」自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん）自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん）Query Suggestion @ tokyotextmining#2 (@y_benjoさん）
snailramper 2010/09/26
mozc

nlp

ソースコード
リンク
「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ
snailramper 2008/05/04
google

search
リンク
1

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記

「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス