[B! 機械学習] nodatのブックマーク

機械学習によるデータ分析まわりのお話

2. データサイエンティスト 2 今世紀でもっともセクシーな職業ハーバード・ビジネス・レビュー 2013年年2⽉月号 2018年年までに⽶米国で14〜～19万⼈人不不⾜足マッキンゼー 2011年年5⽉月求められるスキルビジネススキル，機械学習／ビッグデータ，数学／OR，プログラミング，統計 Analyzing the Analyzers, O’reilly 2013 4. 本⽇日お話すること 4 1. データのこと Keywords: ダミー変数，⽋欠損値，正規化，次元の呪い 2. 機械学習のこと Keywords: 機械学習の分類，アルゴリズム，注意点 3. 評価のこと Keywords: 混同⾏行行列列，適合率率率，再現率率率，F値，ROC曲線 4. 分析のこと Keywords: 過学習，交差検証，学習曲線，バイアス・バリアンス教師あり学習(後述)寄りの内容が多いです

nodat 2018/05/15

リンク

Deep Learningによる一般物体検出アルゴリズムの紹介 - ABEJA Tech Blog

一般物体検出アルゴリズムの紹介今回CNNを用いた一般物体検出アルゴリズムの有名な論文を順を追って説明します。コンピュータビジョンの分野において、一般物体検出とは下記の図のように、ある画像の中から定められた物体の位置とカテゴリー(クラス)を検出することを指します。 [6]より引用 Deep Learningアルゴリズムの発展によって、一般物体認識の精度は目まぐるしい勢いで進歩しております。そこで今回はDeep Learning(CNN)を応用した、一般物体検出アルゴリズムの有名な論文を説明したいと思います。 R-CNN (Regions with CNN features) (CVPR 2014) [1] かの有名なCNNの論文[8]で、ILSVRC 2012の物体認識チャレンジで大差をつけて1位になりました。このチャレンジでは1枚の画像が1000クラスのうちどれに属するかを推定する

nodat 2017/05/26

機械学習

リンク

Machine Learning | Coursera

We asked all learners to give feedback on our instructors based on the quality of their teaching style.

nodat 2016/07/20

機械学習

リンク

[TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita

TensorFlowで株価予想シリーズ 0 - Google のサンプルコードを動かしてみる 1 - 終値が始値よりも高くなるかで判定してみる 2 - 日経平均225銘柄の株価予想正解率ランキング〜 3 - 日本3506銘柄の株価予想ランキング 4 - 実際に売買したら儲かるのかシミュレーションしてみる 5 - 大きく上がると予想されたときだけ買ってみるシミュレーション 6 - 学習データの項目を増やす！隠れ層のサイズも増やす！ 7 - 株価が何%上昇すると予測したら買えばいいのか？ 8 - どの銘柄を買うか 9 - 年利6.79% 前置き猫も杓子もディープラーニングディープラーニング。なにそれ美味いの？って感じだけど、 2015年末に Google が書いた「Machine Learning with Financial Time Series Data on Google Clo

nodat 2016/05/31

リンク

ディープラーニング（TensorFlow）を使用した株価予想～その2～ - Qiita

前回の続き。ディープラーニングのフレームワークであるTensorFlowを使用して株価を予想するぞ～、というお話です。ちなみに前回は完全に失敗でした。前回のコメントで、tawagoさんから「Googleが同じようなことしている」という情報をいただいたので、そちらをコピ・・・インスパイアしてみました。 ##前回との相違点前回は、「数日分の日経平均を使用して、次の日の日経平均が上がるか、下がるか、変わらないか（3択）を予想する」ものでした。 Googleのデモでは、「数日分の世界中の株価指数（ダウ、日経平均、FTSE100、DAXなど）を使用して、次の日のS&Pが上がるか下がるか（2択）を予想する」という内容でした。ということで、下記が前回からの主な変更点となります。「上がるか」「下がるか」の2択日経平均だけでなく、他国の株価指数も使用隠れ層x2、ユニット数は50,25 予想する

nodat 2016/03/28

リンク

TensorFlowでのDeep Learningによるアイドルの顔識別のためのデータ作成 - すぎゃーんメモ

続・TensorFlowでのDeep Learningによるアイドルの顔識別 - すぎゃーんメモの続き、というかなんというか。前回までは「ももいろクローバーZのメンバー5人の顔を識別する」というお題でやっていたけど、対象をより広範囲に拡大してみる。様々なアイドル、応援アプリによる自撮り投稿あまり知られていないかもしれないけど、世の中にはものすごい数のアイドルが存在しており、毎日どこかで誰かがステージに立ち歌って踊って頑張っている。まだまだ知名度は低くても、年間何百という頻度でライブを中心に活動している、所謂「ライブアイドル」。俗に「地下アイドル」と言ったりする。ライブアイドル - Wikipedia そういったアイドルさんたち活動方針も様々だけど、大抵の子たちはブログやTwitterを中心としてWebメディアも活用して積極的に情報や近況を発信していたりする。そんな中、近年登

nodat 2016/03/28

リンク

Pythonによる機械学習の最前線

2016/2/4 「ソフトウェアジャパン　ビッグデータ活用実務フォーラム」でのプレゼン資料です。主にPythonで書いたコードの高速化の話です。タイトルと中身がマッチしない感じがするのは自覚しています。Read less

nodat 2016/02/05

リンク

画像処理の数式を見て石になった時のための、金の針 - Qiita

$k$は定数で、だいたい0.04~0.06くらいです。Rの値によって以下のように分類できます。 Rが大きい: corner Rが小さい: flat R < 0: edge 図にすると、以下のようになります。 CSE/EE486 Computer Vision I, Lecture 06, Corner Detection, p22 これで手早くcornerを検出できるようになりました。ここで、corner検出についてまとめておきます。 cornerは複数のedgeが集まる箇所と定義できる変化量をまとめた行列の固有ベクトルからedgeの向き、固有値の大きさから変化量の大きさ(edgeらしさ)がわかる 2つの固有値の値を基に、edge、corner、flatを判定できる固有値の計算は手間であるため、判定式を利用し計算を簡略化するなお、Harrisはedgeの向きである固有ベクトルを考慮す

nodat 2016/02/02

リンク

ディープラーニングの有名ライブラリ5種を最短距離で試す半日コース（TensorFlow, Chainer, Caffe, DeepDream, 画風変換） - その後のその後

「いつか勉強しよう」と人工知能／機械学習／ディープラーニング（Deep Learning）といったトピックの記事の見つけてはアーカイブしてきたものの、結局2015年は何一つやらずに終わってしまったので、とにかく一歩でも足を踏み出すべく、本質的な理解等はさておき、とにかく試してみるということをやってみました。試したのは、TensorFlow、Chainer、Caffe といった機械学習およびディープラーニングの代表的なライブラリ／フレームワーク3種と、2015年に話題になったディープラーニングを利用したアプリケーション2種（DeepDream、chainer-gogh）。（DeepDreamで試した結果画像）タイトルに半日と書きましたが、たとえばTensorFlowは環境構築だけなら10分もあれば終わるでしょうし、Chainerなんてコマンド一発なので5秒くらいです。Caffeは僕はハ

nodat 2016/01/05

リンク

統計的変化点検出の手法 - Qiita

ログデータの異常検知を行う必要が発生したので、変化点検出の統計的な手法をざっくりと調べてみた。偏差の累積和による方法各データ点に対して標本平均との偏差の累積和を求め、これが最も大きくなる点を変化点とする方法。手順は下記の通り。系列全体の平均値(標本平均)を計算して、各点について平均値との差を求める平均値との差の累積和を計算し、絶対値が最大になる点を変化点とする。変化点によって区切られた各区間について、1,2を再帰的に繰り返す。平均値でなく分散を使うバージョンもある。特徴 1次元のデータ列に適用可能。変化していない部分のデータは同一の確率分布に従い、かつ観測値はすべて互いに独立であることを仮定。上記を満たしていれば、データが特定の分布に従うことを仮定しない。もちろんデータの独立性が仮定できなければ使えないので、ログのような時間相関のありがちなデータにおいて使える場面は限

nodat 2015/12/07

リンク

Autogradという野郎が乗り込んできたのでガクブルな件 - Qiita

Autogradという野郎が乗り込んできました。はい、そりゃもういきなり。複雑な確率モデルや損失関数だとしても、パラメータに関する勾配をこれでもかというぐらい簡単に計算できちゃうので、機械学習の世界に大きな影響を与えそうです。現時点では、PythonとTorchでの実装が公開されているようですが、これからJuliaなど他の言語でも実装されていきそうですね。（補足：この記事を書いたすぐ後にGoogleがTensorFlowなるものを出してきまして、そちらでも自動微分がしっかり実装されてるみたいです〜。機械学習関連のフレームワークは移り変わりが激しいですねー ^^; ）ちなみに始まりはこんな感じでした。ゆるいですね。とりあえずチュートリアルやりながら、Python版チュートリアルの前半部分にテキトーな日本語訳をつけたので、ここでシェアしておきます。英語が読める方は、僕のヘンテコな日本語

nodat 2015/11/09

機械学習

リンク

機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed

みなさんこんにちは。アナリストの荒木です。近い将来さまざまな仕事がロボットに置き換わっていくと多くの人が予想しており、そのコアテクノロジーの一つが機械学習です。GoogleがDeepMindを買収したことで機械学習という言葉も身近になりつつありますが、すでにamazonレコメンドや画像認識などで活躍しています。そこで今回は、ウェブ担当者が「機械学習ってどんなことをやっているのだろう？」という場合に勉強できるスライドをまとめました。 ↓【無料DL】「SEO内部対策チェックシート」を無料ダウンロードする機械学習によるデータ分析まわりのお話機械学習でどんなことをしているのかをまとめたスライドです。データのこと・機械学習のこと・評価のこと・分析のことの4部構成で、データマイニングの一連の流れを学ぶことができます。 Deep LearningGoogleの猫認識例で有名になった手法を紹介したスラ

nodat 2015/10/06

リンク

「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

何かこんなメディア記事が出ていたようです。これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か（両分野に詳しい）誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。統計学はデータを「説明」す

nodat 2015/10/06

リンク

Deep Learningの気持ちになって考えてみる - kivantium活動日記

前回の記事で友利奈緒判定botを作ったのを紹介したところ、いろんな人から試してもらうことができました。集計したところ正解率としては90%程度を出していました。この前集計した時の混同行列はこんな感じでした。最近投稿数が増えすぎて集計したくないです……。しかし、第4世代のネットワークになっても「さすがにこれはないだろう」というような間違いを続けています。 .@dolicas_ 友利奈緒です(72%) pic.twitter.com/U9l93GVgIS— まほろ（稼働中） (@mitra_sun22) 2015, 9月 5 .@DEGwer3456 友利奈緒です(99%) pic.twitter.com/8Yum498g4E— まほろ（稼働中） (@mitra_sun22) September 6, 2015 Deep Learningは性能がいいということで最近もてはやされていますが、こ

nodat 2015/09/08

リンク

時系列解析_理論編 | Logics of Blue

最終更新:2017年6月1日時系列分析という名前はご存知でしょうか？　残念ながらExcelで実行するのがやや困難であるためこの名前もあまり浸透していないのではないかと思います。時系列解析は、回帰分析とは違ってあまり知らない人も多いと思うので、ざっと解説を載せておきます。これだけ読めば、時系列分析の雰囲気はつかめるのではないでしょうか。時系列分析の基礎の基礎からSARIMAモデルまでを一気に解説します。それと、便利なパッケージ　forecast　の紹介も。 Rを使えば簡単に計算できますよ。 Pythonを使いたい方は「Pythonによる時系列分析の基礎」の実装例も併せて参照してください。スポンサードリンク目次１．時系列解析って何？２．時系列データの扱い方３．知ると便利な用語集３－１．自己相関係数・偏自己相関係数３－２．ARモデル（自己相関モデル）３－３．MAモデル（移

nodat 2015/08/20

リンク

MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

nodat 2015/02/16

リンク

Deep Learningでラブライブ！キャラを識別する - christinaの備忘録

このところDeep Learningが相当流行っているようで、ほとんど至るところで話題になっているのを見ます。 Deep Learningは深層学習とも呼ばれ、ニューラルネットワークの層をこれまでより深くして機械学習を行う技法です（だそうです）。画像認識コンテストで他の方法と比べて非常に高い精度を示しており、以前は人の手で行っていた特徴の抽出まで行えます。以前であれば車を認識するには車はどのような特徴を持っているかを人がモデル化して入力していたわけですが、この特徴を入力画像と与えられたラベルからニューラルネットワークが捉えてくれます。詳しいことはDeep Learningで検索して出てくる記事やスライドを参照のこと。 Deep Learning自体は容易に実装可能なものではなさそうですが、多くの研究グループがDeep Learningを行うためのソフトウェアをオープンソースにしているた

nodat 2015/02/14

リンク

第7回　DecisionForestを用いて顧客の購買予測を行う | gihyo.jp

Mahout 0.8からTestForestによる分析結果の出力がよりくわしく出力されるように前回は理論編として、決定木とRandomForestについて解説しました。今回は実践編として、RandomForestのMahout実装であるDecisionForestを用いて、実際に顧客の購買予測を行ってみます。解説の前に、2013年7月25日に、Mahoutのバージョン0.8がリリースされたことに触れておきます。バージョン0.8のDecisionForestは、バージョン0.7と比較し、後述するTestForestによる分析結果でκ統計量と信頼度も出力されるように改良されています。細かい不具合への対応やパフォーマンス改善も行われているので、これからMahoutを導入される方はバージョン0.8をお勧めします。ただし、バージョン0.8が内部で利用しているHadoopはバージョン1.1.2へ

nodat 2015/02/06

[DecisionForest][mahout]

機械学習

リンク

Apache Mahout - Random Forests - #TokyoWebmining #8

The document discusses social media, social graphs, personality modeling, data mining, machine learning, and random forests. It references social media, how individuals connect through social graphs, modeling personality objectively, extracting patterns from data through data mining and machine learning techniques, and the random forests algorithm developed by Leo Breiman in 2001.Read less

nodat 2015/02/06

リンク

Mahout RandomForest Driver 実装法 -大規模分散機械学習・判別 - - hamadakoichi blog

Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散学習・判別"できるように、 Mahout を用いた各種 Driver を実装しました。以下に実行方法、実装を紹介します。 org.mahoutjp.df.ForestDriver Random Forest の分散学習から、分散判別、判別結果出力、および、精度評価まで行う Driver。 org.mahoutjp.df.ForestClassificationDriver 生成された Forest Modelを用いて、分散判別、判別結果出力、および、精度評価まで行う Driver。両 Driver とも、1コマンドで

nodat 2015/02/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (29)

機械学習に関するnodatのブックマーク (27)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス