タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

  • nokunoの日記

    nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

    hmabu
    hmabu 2010/10/27
    ボーナスにバグの数が反映される。各々のプリンタがどれだけ使われたかを追跡したり、1ヶ月間に印刷したページの数が増加したときに人々を警告するために誰かを雇い入れる Yahooニュースに載ったらおもしろいのにな
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

    hmabu
    hmabu 2008/05/03
    > 日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合がある
  • 1