Autogradという野郎が乗り込んできました。はい、そりゃもういきなり。複雑な確率モデルや損失関数だとしても、パラメータに関する勾配をこれでもかというぐらい簡単に計算できちゃうので、機械学習の世界に大きな影響を与えそうです。現時点では、PythonとTorchでの実装が公開されているようですが、これからJuliaなど他の言語でも実装されていきそうですね。 (補足:この記事を書いたすぐ後にGoogleがTensorFlowなるものを出してきまして、そちらでも自動微分がしっかり実装されてるみたいです〜。機械学習関連のフレームワークは移り変わりが激しいですねー ^^; ) ちなみに始まりはこんな感じでした。 ゆるいですね。 とりあえずチュートリアルやりながら、Python版チュートリアルの前半部分にテキトーな日本語訳をつけたので、ここでシェアしておきます。英語が読める方は、僕のヘンテコな日本語
この投稿は クローラー/スクレイピング Advent Calendar 2014の12月23日用です。 はじめに人間って凄い。 まずはこの画像を御覧ください。 図1 各国のECサイトの画像 Eコマースのサイトで、商品の詳細のページを見るだけですぐに商品名、価格を判断出来ましたよね? それが英語のサイトでも中国語のサイトでも、韓国語のページでも分かりましたよね? 凄いですね。 人間のスクレイピング能力人間は恐ろしいほどのスクレイピング能力を持っている事が分かりました。 ソースも見ない、タグも見ないで、なんとなく雰囲気だけでスクレイピングしています。 もしこの能力をコンピュータに移植できたら凄いことですね。 もし、先ほどの画像を身の回りのインターネットに一番疎い人に見せてみて下さい。 きちんとスクレイピング出来たでしょうか? おそらく出来なかった事が多いのではないかと思います。 こんな事させて
SVMは2次最適化問題になるので、それを勉強してみてはということだったのですが、SVMに特化したSMO(Sequential Minimal Optimisation)アルゴリズムがあるということなので、そちらをやってみました。 SVMの制約条件に というのがあって、yiは正例なら1、負例なら-1となる値なのですが、そうすると、ようするにこの条件は、正例のαの合計と負例のαの合計が等しくなるということを示してるわけです。 この条件をつかうと、ひとつαを操作したときには、ほかのαを操作して、正例と負例のバランスを取る必要があることがわかります。 で、このことを利用して、同時に2つのαを操作することにすると、解析的に一つ目のαが求められて、2つ目のαはそこから足し算引き算で求められてお徳かも、というのがSMOの考え方です。 問題は、いかに効率よく更新する2つのαを決めるかということになります。
1 データマイニングと機械学習 櫻井彰人 慶應義塾大学理工学部 管理工学科 データと情報 � 現代社会は大量のデータを産出する � データ源: ビジネス、研究、医療、経済、地理、 環境、スポーツ、、、、 � 潜在的に価値有るデータ源、しかし、 � 生データは役立たない: 自動的に情報を 抽出する技術が必須 � データ: 記録された事実 � 情報: データに隠された規則性 情報が必須 � 例1: 体外受精 � 所与: 胚の60の特徴量 � 課題: 生存する胚の選択 � データ: 胚と結果の履歴 � 例2: 牛の間引き � 所与: 牛の700の特徴量 � 課題: 間引きすべき牛の選択 � データ: 牛と農場主の判断の履歴 データマイニング � 隠れた、これまでは知られていない、潜在的に重 要な情報を、データから抽出する � 必要: データ内のパターンや規則性を抽出する プログラム � 明確なパ
統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル
およそひと月ぶりに,仲間内で行っている小さな勉強会で論文紹介をしてまいりました.ICML2013の予稿がちょっとづつ出てきているので,本日はその中から一本. “A Machine Learning Framework for Programming by Example” Aditya Menon et al, ICML 2013 A Machine Learning Framework for Programming by Example from koji_matsuda 機械学習を使って,Programming by Example(PbE)をしようという論文です.PbEというのは私も初耳だったのですが,ざっくり言うと,人間が「例」を与えることで,その例をうまく再現するようなプログラムを自動的に生成する,というタスクのようです. それを部分的に実現している(らしい)のが,Excel2
scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て
2. 解析動機 2013年5月18日Tokyo WebMining #26 2 最後の春だし画像処理の勉強でもしとくか 後輩からAV女優の類似画像検索の話を聞く (ぱろすけ 2012) DMMにはアフィリエイトあったよな これでウェブサービス作れば儲かるかも 決して下半身からの要望で解析したのではありません http://blog.parosky.net/archives/1506 3. 計算環境 2013年5月18日Tokyo WebMining #26 3 使用言語:Python 2.7 (少しだけR) 使用モジュール:Numpy, Scipy, OpenCV 科学技術計算用のライブラリ MATLABにできることは大体できる numpy.ndarray 型付き多次元配列 numpy.linalg 線形代数計算 scipy.cluster 今回はこれのk-means法を使用
Jubatus : オンライン機械学習向け分散処理フレームワーク¶ Jubatusは「分散したデータ」を「常に素早く」「深く分析」することを狙った分散基盤技術です。 Jubatusの名前の由来は、俊敏な動物であるチータの学術名からの命名で、「ユバタス」と読みます。株式会社Preferred NetworksとNTTソフトウェアイノベーションセンタが共同開発した、日本発のオープンソースプロダクトです。 最終的に全ての人にスケーラブルなオンライン機械学習フレームワークを提供することがJubatusの目標です。 Jubatus は以下の特徴を持ったオンライン機械学習向け分散処理フレームワークです。 オンライン機械学習ライブラリ: 多値分類、線形回帰、推薦(近傍探索)、グラフマイニング、異常検知、クラスタリング 特徴ベクトル変換器 (fv_converter): データの前処理と特徴抽出 フォルト
はじめに 分類器の決定版(?)的なSoft Confidence Weighted Learningを試してみた。 Soft Confidence Weighted Learningとは 2012年に提案された、各重みを正規分布と考え更新時にその分布が変わるようにしたConfidence Weighted(CW)関係のノイズに強くなった版 オンライン学習 http://icml.cc/2012/papers/86.pdf 詳しい解説記事 http://d.hatena.ne.jp/kisa12012/20120625/1340616659 使用したデータ LIBSVMのページにあるUCIデータセットのa9aを用いた http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ 学習データ : a9a テストデータ : a9a.t コード 毎
入門 機械学習の11章でTwitterのネットワーク可視化がトピックになっていて面白そうだったので、Pythonで作成してみました。*1 某Q大の図書館のアカウントを分析してみました。*2大きく2つに分かれていて、左側が図書館関係のアカウント、右側が大学関係のアカウントになっています。図書館関係のアカウントもそのなかで、LSS関係、大学図書館公式、あたりはクラスタになっていそうな感じです。大学関係のアカウントで多くフォローを集めているのは、個人よりも大学関連の情報発信系のアカウントのようです。個人ユーザーとおぼしきアカウントは、図書館系のクラスタよりも密度が低くなっていますね。このあたりに学部ごとのクラスタが出来てないかなぁと期待しているのですが、実際はどうなんでしょうね。 以下にデータとで作成したグラフをいくつか置いておくのでよかったらご覧ください。 https://dl.dropbox
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く