tsamのブックマーク - はてなブックマーク

Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
tsam 2009/10/19
リンク
川柳の自動生成アルゴリズムの紹介（どうしたら　機械で川柳　詠めるかな）
こんにちは。エイプリルフールに 1 日だけローンチした Google 川柳、お楽しみいただけましたか？エイプリルフールが終わってしまったのでサービスはもうありませんが、せっかくなのでその裏側をすこしご紹介します。今回は、Google が人工知能 CADIE を開発し、その CADIE が世界中で面白いサービスを提供するという設定で Google 川柳を提供しました。人工知能 CADIE は架空のものですが、コンピューターによる川柳の自動生成を行ったのは、ウソではありません。ここでは、その川柳をコンピューターに生成させた手順を簡単にご紹介します。川柳とは何かを学習するまず、本物の川柳/俳句を Web 上から集めました。集めた作品を解析し、俳句/川柳にありがちな品詞の並びパターンを学習しました。「瞬間」を切り取る川柳/俳句には、「話題」が必要になります。これは、Web ページからラン
tsam 2009/04/03
google

アルゴリズム
リンク
1

はてなブックマーク

タグ

ブックマーク / blog.google (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / blog.google (2)

Google Japan Blog: 大規模日本語 n-gram データの公開

川柳の自動生成アルゴリズムの紹介（どうしたら 機械で川柳 詠めるかな）

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

川柳の自動生成アルゴリズムの紹介（どうしたら　機械で川柳　詠めるかな）