タグ

DATAとjapaneseに関するwebmarksjpのブックマーク (3)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 上質な日本を学ぶミュージアム JAPAN GEOGRAPHIC

    ジャパンジオグラフィック一般社団法人 デジタルミュージアムが生涯教育と自己実現をサポートします。写真と動画は博物学と文化財を中心に300万点以上。学術的価値を考慮した評価は学習優先度や訪問先の選定に活用できます。この分野では世界最大で、国の機関にもこのような総合サイトはありません。 Academic Association of Japanese Culture and Nature with over 3 million photo/movie clips. ■ Index 地域(Location) 新着(New) 文化財(Cultural Properties) 分野別(Classified) ■ Edited Movie (Download YouTube)  ■ Web Magazine ■TV局等利用申請(Copyright License) ■影像等の制作受託(Producti

  • 1