タグ

ブックマーク / tarao.hatenablog.com (1)

  • Google日本語入力がやっているデータ収集方法まとめ - 貳佰伍拾陸夜日記

    Web上の膨大な情報を使ってかな漢字変換を行なうGoogle日本語入力(のベータ版)がリリースされた. Web上の膨大な情報を機械的に取り扱うのはGoogleのお家芸だけれど, それだけでは変換された後の文字列しか用意できない. どうやって変換前の文字列を集めるのか, それをどうやって変換後の文字列と結びつけるのかという点については疑問が残る. この点に関して, 以下のような指摘がある. どこから集めたのか考えてみたんですが、たぶん(たぶん、ですよ。あくまで私の憶測・邪推ね)、Google サジェストを提供する中で、ユーザーがかな漢字変換をしている途中の読みデータと、かな漢字変換を確定した後の漢字データを集めてきたのではないかと思います。 ぶっこ抜き? [Google日本語入力の功罪] Googleサジェストが変換途中の文字列からも候補を提示できるようにするために, 毎秒100回入力エリア

    Google日本語入力がやっているデータ収集方法まとめ - 貳佰伍拾陸夜日記
  • 1