サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
harapon.hatenablog.com
すべてがFになる,映像化するみたいですね.犀川創平も西之園萌絵も配役がイメージと違って一部で話題になっていました.さて,最近テンソル分解を使った論文をよく見かけるのですが,いまだにきちんと整理できずにいます.テンソルかわいいよ,テンソル. そこで,まずは行列分解(matrix factorization, matrix decomposition)を整理してみようと思います.行列の分解手法というと線形代数的な観点からは簡単に思いつくだけでも 固有値分解 LU分解 コレスキー分解 などがありますが,これらは分解前の行列と分解後の行列が一致する(たとえばA=LU)方法です.一方で,機械学習やデータマイニング界隈(特にレコメンデーション等)で出てくる行列分解というのは,大規模データや関係性データの中から低ランクの構造を抽出することや次元圧縮を目的としています.なので,正確に言うならば,行列分解と
MLaPPアドベントカレンダー12日目という下書きが下書きエントリにずっと入っていてそろそろ腐敗し始めているため,きまずくてブログが更新できない昨今です.MLaPPアドベントカレンダーは2年越しの計画という言い訳を思いついているので,今年の年末にがんばりたいですね…. さて,学生さんへの紹介用にICML2014のLearning Latent Variable Gaussian Graphical Modelsの説明スライドをつくったので,ブログにのっけておきます.細かい話は一切書いてないですが,そこらへんは論文を読んでください. Learning Latent Variable Gaussian Graphical Models from harapon ICML2014で面白そうだと思った論文は Joint Inference of Multiple Label Types in La
というわけで,昨日はベイズ統計でしたが,本日は頻度論的統計の章です.頻度論から統計学を知った身としては,頻度論の問題点を指摘されているのは自分の黒歴史を見つめているようで悲しい気分になります….とはいえ,最近は完全に発想がベイジアンになっているのですが. 頻度論統計のベイズ統計の一番の視点の違いは最初にも書かれているように,頻度論はパラメータが固定(真のパラメータがある),データはそこからサンプリングされたに過ぎない(ランダムでありうる)と考えているのに対し,ベイズ統計はデータは固定(だって目の前にデータがあるじゃん!),パラメータはランダム(事前分布などに応じて変わりうる)と考えています.これらの違いを意識すると,どっちの立場の話もすっきりするのではないでしょうか. Sampling distribution of an estimator 頻度統計ではパラメータ推定値はestimato
5日目になってベイズ統計の章に入ってきました.ベイズの定理を用いたベイズモデリングや,そこまで詳しく触れられませんが古典的ベイズ,階層ベイズ,経験ベイズの違いがわかるといいと思います.また,次の章では頻度論的な話になっているので対比してみると理解が深まるように思います. Summarizing posterior distributions 事後分布は未知量に関して知っていること全てを要約 MAP estimation 未知量に対する点推定は事後分布の平均や中央値などで計算 このアプローチは計算しやすいが,MAP推定には様々な欠点があることを把握しておくのは重要 これは後半に続くより徹底的なベイズアプローチのモチベーションになっている No measure of uncertainty MAP推定を含む任意の点推定は不確実性に対する指標がない Plugging in the MAP est
12月ですね.そういえば昨年ベイズ統計分析ハンドブックに関するエントリーを書いたところ,ホッテントリに入って大量のアクセスを頂きましたが,誰一人としてアフィリエイトで買う人間はおらず,やはり薦める本を失敗した!と後悔し続けた2013年です. 皆様から注目を頂いたベイズ統計ハンドブックですが,やはり1047ページ,28,000円という物理的にもお財布的にも鈍器のように優しくない本を購入する人間はいないということがわかったので,今年はもっとみんなが興味があり,かつ手に取りやすい本をご紹介したいと思います.そこで,MLaPPです.MLaPPとはMachine Learning: a Probabilistic Perspective(著者ページ)というタイトルで,全28章にわたって,Machine Learningを概説している本であり,PRMLと同じくらい注目されても良い本ではないかと個人的に
今週はMLど素人でありながら初めてIBISに参加し,様々な刺激を受けて大変良い1週間でした.いつもtwitter上でご活躍を拝見している方々とリアルに会ったり,遠目に眺めてみたり,話をしたりできたので良かったです. 刺激を受けたご講演・発表は数多くあったのですが,Salakhutdinov先生(いまだに発音がわからない)の基調講演も面白い内容でした.Deep Learningが実装できるような計算機環境やデータを自分が準備できそうにないので,Deep Learning自体の進展については遠巻きにながめているしかないのですが,Restricted Boltzmann Machines (RBM)周辺の話は面白いなぁと素直に感じた次第です.現在,学生さんと自分の研究でGaussian Markov Random Fieldの欠損値推定をノリで行っているのですが,IBISに参加してRBM周辺のお
Goel, G., Mirrokni, V. and Leme, R. P., Polyhedral Clinching Auctions and the Adwords Polytope, 44th ACM Symposium on Theory of Computing (STOC 2012). Google の2012年excellent paperが挙げられていて,その中にオークション理論の論文があった.Machine Learningと異なり,オークション理論,メカニズムデザインは自分の専門分野の一つなので,かいつまんで紹介してみる.あまり厳密な数学的記述は行わず,わかりやすさ重視で説明してみたい. まず,オークションに関する多くの誤解を解いておきたい.オークションというとある品物(財)を高く売りつける方法,または(ヤフオクのように)いらないものを処分する方法と実用上,捉えられが
Semi-Supervised Text Classification Using EM Nigam, K., McCallum, A. and Mitchell, T. 私なんぞでも知っている有名人GoogleのNigamさんによるChapter 3 (pp.33-55). McCallum, Mitchellも有名人.Tom MitchellはMachine Learningのテキストを1997年に出していますね.この章はテキスト分類にEMアルゴリズムを効率的に適用したもの.生成モデルを用いたテキスト分類には3つの重要なポイントがある.1つはシンプルな表現ではあるが,あるテキストのドメインでは生成モデルの確率と分類精度には正の相関があること,2つ目はあるドメインではこのような相関がないこと,3つ目はEMは局所最適に陥ることである. 1. Introduction EMアルゴリズムで欠損
A Taxonomy for Semi-Supervised Learning Methods Seeger, M. Ch 2(pp.15-31)もどちらかというとoverviewっぽい.半教師あり学習の分類について書かれている.相変わらず簡単なまとめメモ+適当な意訳あり.あとはてダの数式が綺麗ではないので,少しがんばってみた.はてなブログの方が数式綺麗らしいので乗り換えようかなぁ…. 1. The Semi-Supervised Learning Problem 半教師あり学習には2つの基本的手法がある unlabeled dataを無視した教師あり分類問題 2. Paradigms for Semi-Supervised learning 半教師あり学習は教師あり学習のテクニックなので,当然生成モデル的アプローチと識別モデル的アプローチに分類できる この節では統計学や機械学習でよく用い
情報幾何の観点から指数型分布族を眺めるその2です.前回よりはもう少し内容のあることを書きたいと思います.前回のエントリーを書いた後に指数型分布族の空間におけるデータ解析法について(pdf)を見つけてとてもわかりやすいので死にたくなりました.でも,このエントリーではもう少し初歩的なことをまとめておきたいと思います. 前回,「指数型分布族とはexpの中身がに対して線形であるってこと?」みたいなことを書いたのですが,「指数型分布族とはexpの中身がに対して線形な項とポテンシャル関数で表せる」が正しい見方なのかなと思い至りました. 多項分布(簡単のため三項分布)による例 情報幾何的な視点で見るために,まず簡単な多項分布でその例を示します.三項分布モデルとは確率変数が1,2,3のいずれかの値を確率で取るモデルです.確率なのでが成り立ちます.なので,は実際は不要なので,と置き換えましょう.また,のとき
Chapelle et al. (2006)を買ったので読んでみてる.Zhu and Goldberg (2009)の"Introduction to Semi-Supervised Learning"も買った.後者はかなり薄いかつ簡単そうなので,概要を掴むには良さそう.まだ特に半教師ありを何かに適用するつもりではないのだけれど,勉強として1章(pp.1-12)を簡単に読んだのでまとめる. 1. Supervised, Unsupervised, and Semi-Supervised Learning Supervised and Unsupervised Learning 伝統的に教師あり学習と教師なし学習があるよ 教師なし学習はを個の点の集合として各点は共通の分布からi.i.d.にドローされると仮定. 行列を定義. 教師なし学習の目的はデータの興味深い構造を見つけること 教師あり学習
論文のpdfはここ 概要 TwitterやFacebook,FoursquareやGoogle+などのソーシャルネットワークサービスによってロケーションセンサーやジオタグが安価に利用可能になっている.この論文は地理情報とメッセージ内容の生成モデルを提案する. 既往研究のように予め定義(たとえばメッシュなどで)することをせず,本研究のモデルは自動的にコンテンツ上の階層構造と地理的位置情報上のサイズと位置上の階層構造を推論する.これによりかなり精度が向上した(過去のベストな結果よりも40%以上エラーが減少した) この結果は新しい統計モデル nested Chinese Restrant Franchise (nCRF)を提案することで達成した.多くの統計的構造はユーザー間でシェアされている.つまり,各ユーザーは興味と場所において自分自身の分布を持っている.nCRFを用いることによって,次のよう
皆さん,ご存じの指数型分布族(exponential family)について私の拙い理解をまとめておきたいと思います.指数型分布族といえば,難しめの統計学や機械学習の本を読んだときに突如出てきて,「え,何それ,指数分布じゃないの?僕,指数分布しか知らないよ−」と思っている読者を撲殺し,しかし,殺されている本人は「まぁ,たぶん指数分布みたいなものだろう,とりあえず読み進めよう」と見ない振りをしているアレです.えぇ.私もそういう理解です.しかし,このままではいかんので,そこらへんにあった文献を元に簡単な理解をまとめておきたいと思います.ちなみに私の初エンカウンターはPRMLでした.てか,(私が学んだゆるい)大学時代の講義ではこんなもの習わなかったのですが,この指数型分布族とはどういう統計の授業では学ぶモノなのでしょう….単なる勉強不足かもしれませんが…. あいつもこいつも指数型分布族 まず,P
なんかダンコーガイみたいなエントリータイトルです(そういえば最近ダンコーガイどうしてるんだろ…).さて,仙台にはジュンク堂が駅前に3つあり,その中でイービーンズに入っているのが一番専門書がしっかり揃っていて良いです.というか,3つもいらないし,ちゃんと1つ大きいのが欲しいなぁ...池袋ジュンク堂が近かった自分としては仙台の残念なところは良い大きな本屋さんがないところですね. で,最近ノンパラベイズを少しだけ勉強しようと思っていて(がっつりではない),でもそのレベルだとなかなか良い資料が見当たらない.暇なときに目を通すレベルであれば,持橋さんや上田さんによる良い資料・チュートリアルがあるのですが,それ以上のこととなると真面目に論文を読むしかない.たとえば,真面目にDirichlet過程の導出と意味を理解しようとするとFerguson (1973)を読む必要があるでしょうし,そのアプリケーショ
首都圏における帰宅困難者のモデリング その5 @y_benjoさんと野良分析チームとしてやってきた成果を発表しました. 首都圏における帰宅困難者のモデリング 最終報告 from ybenjo 内容については,これまでもメモ書きを残してきましたし,@y_benjoさんによるエントリー 東日本大震災ビッグデータワークショップ Project 311に「野良分析チーム」として参加したもあるので,参照してください. 当日の発表で気になったもの 全部は挙げられませんが,以下は気になりました.中間発表で「根性マイニング」(目視で読むべし読むべし)の話題となりました.根性マイニングとは結局,生データを眺めてデータの特性を把握する,読みながら自分の中で人々の行動原理や現象について仮説を立てる,そのような行為だと理解しています.以下のシステムはその根性マイニングを行う際に非常に役立つのではと思います. 31
首都圏における帰宅困難者のモデリング その4 いろいろ空き時間をみつけてはhogehogeしております.さてさて,最終発表も近いですし,ここいらで今回のWSで提供されたデータの性質についてもう一度振り返っておきたいと思います.今回のWSのタイトルは"東日本大震災ビッグデータWS"です.それに対して,○○GB程度じゃビッグデータじゃないやんけ…などの揶揄が聞こえてきますが,そこを突っ込むのはやめておきましょう.WS用にデータを小さくしているだけですし. こんなこと,僕が言うまでもなく,皆さん気付いておられるはずですが,おそらく近年流行りのビッグデータというものはデータがビッグなことではなくて,(膨大な)ログデータということを言いたいのだと思います.今回提供されたデータはJCC, Twitter, 朝日新聞社, Google, ゼンリンデータコム, 本田技研工業, NHK, レスキューナウどの
三日坊主で更新が止まってましたが,いろいろ試してはいたのです. 位置情報付きのtweetリスト作成プロジェクト 先週土曜日くらいからこういうことをやっていました.ただのデータ作成ではありますが,メンバーに恵まれて楽しく作業できました.@hiiragi1104 さん,@antlabo さん,@_kawaken_ さん,@y_benjo さん,ありがとうございました. これで地理情報付きツイートの分析が行えます. 首都圏における帰宅難民のモデリング(仮) その1 @y_benjoさんとなんかやろうと見切り発車で始めました.プロジェクトページはこちら. 平常時(3/08)と震災時(3/11)の人口分布の変動をメッシュではなく,等高線で表してみました.深夜0時から翌日午前7時までのgifにしています.都心部から人口が減らないこと,ターミナル駅に人が集中することが見て取ることができます.図をクリック
twitterによるURL共有情報の分析 その2 昨日に引き続き,URL共有情報の分析を行う.データ概要は昨日参照.tweet内に含まれるURLの総数は28,601,436,unique数(種類)は名寄せ前で8,312,928. 第一段階として,名寄せ前の出現頻度の多い上位500のみを対象として名寄せを行う.本当はすべての名寄せを行いたいが,pythonのurllib2.urlopen().geturl()を用いるとリクエストにどうしても時間がかかってしまい,処理時間が膨大になってしまうので,まずは上位500に絞って傾向を見ることで,分類軸を考えることにする.(名寄せの方法の良い方法なにかありませんかね…?昨日に突然,bit.lyさんからイケメンな提案がされていたので,bit.lyはそのデータとすりあわせればなんとかなるかもしれない.まだ見てないけど.) ※追記: というアドバイスを@jn
(2012/9/19 22:51追記 url切れが多かったは間違いだったので修正.奥村先生の分析結果と数が合わないのはもう一度チェックする!) (2012/9/20 14:24追記 1tweetに複数以上のurlが含まれていても1つしか抽出していなかったので修正.奥村先生の抽出結果の数字とほぼ同じオーダーの数値になったが,今度はこちらが10〜20程度多いものがある…なぜ…?) (2012/9/20 22:05追記 奥村先生とのツイート数のずれはURLの後ろに付いた#が原因であることが判明.詳細は奥村先生のtwitter分析のページに記載されています) Googleが幹事となり,朝日新聞社,JCC,Twitter Japan,日本放送協会,本田技研工業,レスキューナウ,ゼンリンデータコムによる8社が2011年3月11日前後のデータを公開して,当時何が起こったのか,震災時に必要なサービスは何か
Googleが開催していたBig Tent 2012 -自然災害とIT活用に関する国際会議-に参加してきた.たぶん全体的な内容はGoogle自身によってblogで公開されたり,参加者によるblog報告やツイート,togetterあたりでまとめられるのではないかと思うので,ここでは割愛. - (追記)togetterにまとめられていましたね.しかし,ツイートだけで全体像を掴むのは厳しい….Google or 有志によるblog報告が待たれる…. Big Tent Sendai summary of tweets #bigtentsendai - やはり自分の関心であるネットの情報とリアルをどのように繋ぐべきかという内容のディスカッションが行われた「ネットからリアルへ:救助・救援・復興まで、被災地における支援の計画と管理」についてまとめてみる. モデレータはMIT メディアラボの石井先生(初め
暇だったので久々にRで遊んでみた.たしか青木先生のところに日本地図データがあったことを思い出し,色塗り.参考にしたのは以下のサイト. http://aoki2.si.gunma-u.ac.jp/R/color-map.html http://ds0.cc.yamaguchi-u.ac.jp/~fukuyo/r-map.html http://d.hatena.ne.jp/yuka_y/20100728/1280290929 前もって"jpn.zip"をダウンロード後,解凍した中にはいっている"jpn"フォルダをワーキングディレクトリにコピーしておく必要がある. あとは以下のように書けばOK. source("http://aoki2.si.gunma-u.ac.jp/R/src/map.R", encoding="euc-jp") source("http://aoki2.si.gunma
基本的に自分用メモです.主に以下のtogetterまたは#gdd11jpのハッシュタグから情報を集めました.一応言語順にしてあります. http://togetter.com/li/187147 (勝手にリスト化してほしくないという場合はご連絡ください!) 追記:エントリーポスト時は9名分.9月12日18時で16名分に増加.22時に28名分,9月13日10時現在43名分です.大雑把な分類でJava:14名,C++:8名,C:6名,C#:1名,Python:6名,Perl:3名,Ruby:1名,Haskell:1名,PHP:1名,Go:1名,OCaml:1名 . @komiya_atsushi さん 言語:Java コード置き場:https://code.google.com/p/k11i-gdd2011jp-slidepuzzle-solver/ 本人による解説:http://blog.k
同じくPython関連で,Google Code Universityの中にPython Classがあることを見つけたのでメモ.GoogleはPythonユーザーが多いので,なんとも役に立ちそうな予感.一つ一つが1時間弱あるので全部見るのは時間がかかりそうだけど,ちまちまとチェックしよう. Introduction, strings Lists and sorting Dicts and files Regular expr Utilities Utilities urllib Conclusions 他にもデザインパターンに関するtech talkの動画などもあるので至れり尽くせりな感じ!
(※追記あり) 数日前にスクレイピングという言葉を学び,とりあえずRでやってみた.まだまだ勉強途中なのでいろいろ間違ってるかもしれないし,計算速度もそんなに速くないのだけど,どなたか詳しい人ご教授ください.むしろもっと楽な方法があれば是非! 内容はYahoo!乗換案内に対して,出発駅と到着駅を与えることで,運賃,所要時間,乗換回数を取ってくるコードになっていて,複数提示されるうちの1番上を取ってきます.最終的にデータフレームに閉まって終了という内容です.途中のHTML解析部分はひどく手作業感が出ているので,正規表現などを使ってもう少しスマートな感じにしたいのですが,とりあえず動くことは動きます.こんなデータを取得したい需要は一部の分野にしかなさそうですが,そこはご愛敬.動かす場合は最初にRCurlのpackageをインストールする必要があります.計算速度は1000組合せで30分程度.うーむ
このページを最初にブックマークしてみませんか?
『Fire and Motion』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く