ログイン
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
今年は、Deep Learningを研究する予定(2014/1/4)だったのだけれど、多層パーセプトロンまで到達した(2014/2/5)ところで少々(?)足踏みしている。Deep Learningの構成要素であるボルツマンマシンを理解するのに手間取っているためだ。ボルツマンマシンの理解には、マルコフ確率場やMCMCの理解が必要なことがわかったので少し廻り道してモンテカルロ法を先に勉強(2014/6/20)していたというわけ。 ただ、そればかりでは少々退屈になってきたので少し先回りして Deep Learning の先駆者のBengioさんが書いた論文 Learning Deep Architectures for AI を勉強している。示唆に富む見解が多いのであとで振り返られるように記録しておきたい。 まずは、1.1節のDesiderate for Learning AIの部分。人工知能を
AdaGrad(Adaptive Gradient)というオンライン学習のアルゴリズムを実装しました。 https://github.com/echizentm/AdaGrad 論文: Adaptive Subgradient Methods for Online Learning and Stochastic Optimization(http://www.magicbroom.info/Papers/DuchiHaSi10.pdf) AdaGradはAROWのように重みの更新を適応的に行うことが出来るほか、正則化のアルゴリズムと組み合わせることが出来るという利点があります。 このためFOBOSやRDAなどを用いたL1正則化によって特徴量を疎にすることが出来ます。今回はRDAと組み合わせたAdaGradをperlで実装しました。 RDAを用いた理由は上記論文でFOBOSよりも高性能だった
photo by Régis Gaidot データセットとかの知見を集めました。 いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。 これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。 奥 健太 - 情報推薦研究ツールボックス grouplensのデータセットは、論文などにも利用されているのを見かけました。 注意点としては ・EachMovieなどは利用できない ・MovieLensやDelicious、Last.fmはdat形式のファイル ・WikiLensはdumpして使うようにされている ・Book-Crossingはcsvとsql ・jesterはExcelファイル ということです。 それ以外だと ようこそ - the Datahub 情報学研究データリポジトリ データセット一覧 livedoor グルメの研究用データセットです。 20
勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基本的なことがらについて説明しました。その資料を公開します。 プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。 プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。
Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。 著者の西尾さんによる本書の解題[リンク] はじめに 1章 word2vecを使ってみる 書き換えてみよう 2章 コーパスを変えてみる text8 単語に分割する(MeCab) CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出し まとめ 3章 word2vecの生まれた理由 文章の表現 4章 word2vecの仕組
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが(笑)、教師あり学習&分類器系では一旦これでシリーズを〆る予定です。 トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回(と次回予定の5回分まとめ)の記事を読んでもらいたいなぁと思います。 今回の参考文献もピンクの薄い本です。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。 はじめてのパターン認識 作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行本(ソフトカバー)購入: 1人 クリック: 7回この商品を含むブログ (4件) を見る 他だと、例
Machine Learning Advent Calendar向けの記事です。 普段はGunosyという会社で社長業をしながら社長をしています。 ざっくりいうと 結論だけ知りたい人はここだけ 広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題 今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も) 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく 個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる 広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う) 広告について 最近はもっぱら広告の開発をしており、広告分野で
ニュースアプリSmartNews(https://www.smartnews.be/)の背景のアルゴリズムについてTokyoWebMining30th(http://tokyowebmining30.eventbrite.com/)で話させていただいた際の資料です。 •SmartNews iphone版: https://itunes.apple.com/jp/app/id579581125 •SmartNews Android版 https://play.google.com/store/apps/details?id=jp.gocro.smartnews.android •SmartNews開発者ブログ http://developer.smartnews.be/blog/Read less
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く