タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

    shibacho
    shibacho 2008/05/03
    今はmecab辺りをカスタマイズしているんじゃないかな、さすがに。/ただ辞書のメンテナンスコストは無視出来ない問題だね。
  • APIテスト中 - nokunoの日記

    PHP5+SWIG::AnthyでAPIをテストしています。(SWIG1.3.31でPHP5に使えました)http://www.social-ime.com/api/?string=ここにかなもじをいれるとすると以下のように確認できます。形式はプレーンテキストです。ここに 個々に 此処に 此所に 個個に 戸戸に 呱々に 呱呱に 戸々に CoCoに 虎々に ココに ココニ 仮名文字を かなもじを カナモジを カナモジヲ いれる 入れる 淹れる 容れる 煎れる 要れる 居れる 射れる 炒れる 鋳れる 熬れる イレル ここで、上から順に第0文節、第1文節、第2文節を表す行になっています。また、n行目は左から順に第0候補 第1候補 第2候補 …とタブ文字で区切られています。このように一度に全ての候補を返す理由は、通信の回数を減らし変換をスムーズに行うためです。 文節区切りの変更ができるようになりま

    shibacho
    shibacho 2008/04/02
    いじれるようになってたの知らなかった、、、
  • MS IME vs ATOK vs Social IME - nokunoの日記

    マイクロソフトの日法人で元会長の古川さんのエントリ。古川 享 ブログ: MS IMEさらに...お馬鹿になっていく4 兆円を超える金でYahoo買おうという発想があるならその数10分の1でも、IMEの品質向上に自ら開発投資をするべきで...来IMEは、かな漢字変換としての機能だけではなく...正しい漢字を検索する、自分のファイルやデータをローカルファイルの中から検索する、企業内部で共通辞書や住所、顧客データなどを検索する、社会のデータベースやインターネット上の情報を検索するに必要な共通技術であるにも関わらず...まぁ、そんなことが理解できない経営者が...IMEの開発は中国でやった方が安く済むと思っているのであれば、未来は無いねぇ... これに便乗してATOKの宣伝をしている人がいたので、Social IMEを加えて比較してみることにします。ちなみに、途中から単語が偏ってるのは仕様です

    shibacho
    shibacho 2008/03/13
    Vistaじゃやっぱり使えないのか、、、完全プライベートマシンがVistaなので、早めにAPIを公開してほしいところ。特にMac対応を強く願う。
  • 1