sleepy_yoshiのブックマーク / 2009年7月24日

sleepy_yoshi id:sleepy_yoshi

2009年7月24日のブックマーク (3件)

Netflixのレーティングデータを扱う(1) - tsubosakaの日記
Grand Prizeが達成されたNetflix Prizeですが、データの公開が停止されたりすると困るので登録してデータを確保した。 Netflixのデータフォーマットは展開先のフォルダの下にtraining_setというフォルダができ、その中にmv_0000001.txt ...という形式で17770個の映画のレーティングデータが入っている。フォーマットは (映画のID): (ユーザのID),(レーティング),(レーティングをつけた日(YYYY-MM-DDの形式)) ... (ユーザのID),(レーティング),(レーティングをつけた日(YYYY-MM-DDの形式))となっている。ここでレーティングの数は約1億個でたとえば一つのレーティングを public class Rating { int user; int it em; int rate; Rating(int u , int
sleepy_yoshi 2009/07/24
recommendation
リンク
人間の言語習得はルールの学習ではなく丸覚え？ - 武蔵野日記
natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transf orm」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google 日本語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ？　と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で
sleepy_yoshi 2009/07/24
NLP
リンク
mots quotidiens.PPM, 言語モデル, Burrows-Wheeler Transform
電通大の情報理論の韓太舜先生の最終講義が3月にあって, スライドがここから見られるのを知った。院生のときに『情報と符号化の数理』 (岩波書店応用数学)を読んで, その明晰な内容と込められた哲学に感動したので, 感慨深いです。 16ページ目の内容が本当なら, Weber-Fechnerの法則が理論から導けるということなのだろうか.. フルテキストは1975年なので, 閲覧制限がかかっていて見れないのが残念。他も, 全体的に非常に興味深いのですが, とりあえず最後がワラタ。(笑) 論文の準備のためにPPM,PPM*,CTWなど圧縮関係の論文を(完璧ではないと思いますが), 色々読んでみた。 PPMについては, 北先生のところで1998年に, PPM*を使った言語モデルの話が出ています。さて, PPMは岡野原君が言語モデルと似ているという話を書いているのですが,
sleepy_yoshi 2009/07/24
NLP

compression
リンク
- 2009年7月25日
- 2009年7月24日
- 2009年7月23日