タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

  • 「Mozcソースコード徹底解説」 at 第2回自然言語処理勉強会 - nokunoの日記

    というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会@東京 : ATND私の発表は、シルバーウィークにもう1回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回 自然言語処理勉強会@東京 (#tokyotextmining)」 自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん) 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん)Query Suggestion @ tokyotextmining#2 (@y_benjoさん)

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 1