タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Google日本語入力と考察に関するDNPPのブックマーク (2)

  • ぶっこ抜き? [Google日本語入力の功罪]

    [PR] ブログの商品紹介リンクには広告が含まれています お仕事で四国から飛んで帰っている間にGoogle様が「Google日本語入力」をリリースしていました(Google様のブログ参照)。 ATOK とか MS IME とかと同じ役割をする、かな漢字変換エンジン。WindowsMac の両方揃って、どちらも無料です。 まだ現物は試していないのですが、上記のブログの説明や Twitter に流れている試した人の感想を読む限りでは、かなりすごい。破壊的にすごい。 Google が蓄積している Web 上のテキストの膨大なデータを辞書に使っていて、Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成

  • Google日本語入力がやっているデータ収集方法まとめ - 貳佰伍拾陸夜日記

    Web上の膨大な情報を使ってかな漢字変換を行なうGoogle日本語入力(のベータ版)がリリースされた. Web上の膨大な情報を機械的に取り扱うのはGoogleのお家芸だけれど, それだけでは変換された後の文字列しか用意できない. どうやって変換前の文字列を集めるのか, それをどうやって変換後の文字列と結びつけるのかという点については疑問が残る. この点に関して, 以下のような指摘がある. どこから集めたのか考えてみたんですが、たぶん(たぶん、ですよ。あくまで私の憶測・邪推ね)、Google サジェストを提供する中で、ユーザーがかな漢字変換をしている途中の読みデータと、かな漢字変換を確定した後の漢字データを集めてきたのではないかと思います。 ぶっこ抜き? [Google日本語入力の功罪] Googleサジェストが変換途中の文字列からも候補を提示できるようにするために, 毎秒100回入力エリア

    Google日本語入力がやっているデータ収集方法まとめ - 貳佰伍拾陸夜日記
  • 1