タグ

2007年11月1日のブックマーク (2件)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
    monjudoh
    monjudoh 2007/11/01
    例の20%ルールで作ったそうな
  • Adobe MAX リアルタイムレポート:ニコニコ動画とFlash - てっく煮ブログ

    ドワンゴ 戀塚さん。まとめのクオリティよりもリアルタイム性を重視したメモ。たぶん後で資料公開されるので、正確な情報はそちらにて。(追記)公開されたようですdwango research and development dept. ≫ Blog Archive ≫ Adobe Max Japan 2007 講演資料「ニコニコ動画とFlash」ニュースサイトにも記事が出たようです。開発者が明かす「ニコニコ動画」人気の“キモ” - ITmedia Newsドワンゴ開発者が語る「ニコニコ動画」の中身 − @ITCodeZine:【Adobe MAX Japan 2007】 ニコニコ動画がActionScript 2を採用したワケ(レポート)ニコニコ動画とは2.1 参加方法動画投稿 意見を問いながら投稿できるコメントをもらえてモチベーションが高まる既存動画を加工する。2次3次加工が容認されているマイ

    monjudoh
    monjudoh 2007/11/01
    コメントの表示し方の工夫など。スライドへのリンクもあり。『Web+DB 42 に技術資料が出るらしい!』