タグ

ブックマーク / code46.hatenablog.com (3)

  • Netflixはどのように映画をジャンル分けしているか - 不可視点

    映像コンテンツのストリーミングといえばNetflix、現在4400万人のユーザー(有料会員)がいる成熟したサービスですが、現在もすごいペースで成長しています。 Netflix、第4四半期決算で大幅増益--加入者数は400万人増 - CNET Japan 利用できる地域は限られますが、日でもレコメンデーションのコンテストNetflix prizeの開催や、AWSをいち早く活用した企業として知られています。 Netflixは先に紹介したNetfix Prizeでレコメンデーションの性能向上に懸賞金をかけたほど、レコメンデーションがサービスの重要な位置を占めています。 視聴された映画の2/3はレコメンデーション経由らしいです。 Todd Yellin(Vice President of Product Innovation at Netflix)は、「映画をピッタリの人にピッタリのタイミングで

    Netflixはどのように映画をジャンル分けしているか - 不可視点
  • yatsが回収したTwitter日本語圏 9月(1/2) - 不可視点

    久しぶりにTwitter語圏のダンプを公開したいと思います。 9/1-9/16の1.77億つぶやきのMySQLダンプです(load dataで取り込むタイプ) yatsの収集対象は 公開ユーザー状態でつぶやかれたもののうち 過去3週間以内につぶやいたユーザーからのもの、 累積200〜400つぶやきの日語ユーザーからのもの です。ベストエフォートです。 streaming apiで流れてくるつぶやきもだいたい記録しています。 スキーマ: CREATE TABLE `buffer_20100916` ( `id_autoinc` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `id` bigint(20) unsigned NOT NULL, `user` varchar(20) NOT NULL, `content` text NOT NUL

    yatsが回収したTwitter日本語圏 9月(1/2) - 不可視点
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 1