タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

  • Social IME 〜みんなで育てる日本語入力〜 - nokunoの日記

    未踏の成果報告会のスライドです。slideshareちょっと重いですね。 | View | Upload your own前述のように提案のときとは方向性が少しだけ変わっているのですが、その中でも大きかったのは2つ。提案のときは「専門用語」「流行語」の辞書を共有する、としていたのですが、実際にはオタク用語などの需要が大きかったこと(笑)当初の予定になかった予測入力を実装したところ、実用性はともかく面白い挙動となることが分かったこと予測入力は結果のあいまい性が高いので、集合知的なログが最も活きる部分ではないか、と思っています。

    citora
    citora 2008/05/22
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 1