Private content!This content has been marked as private by the uploader.
先日、とあるコンサルの社長さんとお酒を飲みながらお話していて出てきた話題が「畢竟データ分析って何の役に立つんだろう?」というものだったんですが、そこで僕が思い出して紹介したのが「獺祭」で世界進出を成功させている旭酒造のエピソードだったのでした。 ということで、その事例を振り返りながら久しぶりにちょっと与太話でもしようと思います。 http://www.tv-tokyo.co.jp/cambria/backnumber/20140116.html ちなみに上ははてブでも大きな話題を呼んだ東洋経済の特集記事ですが、僕にとってはテレ東カンブリア宮殿で紹介された時の映像の方が遥かに衝撃的でした。 「獺祭」は杜氏でも何でもない普通の社員が、データに基づいて一挙手一投足を決めながら仕込んでいる 東洋経済の記事では割とざっくりとしか書かれてないんですが、カンブリア宮殿で放映された映像では獺祭の製造工程の
機械学習では、データがどのクラスに属するかを識別するという問題が基本的です。 この識別問題は線形識別器というモデルを使うことで解くことができます。 この記事では、実装が簡単で高性能な線形識別器、AdaGrad+RDAの解説を行います。 AdaGrad+RDAの詳細な解説は以下の論文を参考にしてください。 http://www.magicbroom.info/Papers/DuchiHaSi10.pdf こちらはAdaGrad+RDAの実装例です。 http://d.hatena.ne.jp/echizen_tm/20140726/1406376207 識別問題は、通常データを2つのクラスに分類します。どうやって分類するかというと、線形識別器が正の値を返したか、負の値を返したかでクラスを分けます。 具体的には、線形識別器は以下の形式をしています。 y = Σ(x_i * w_i) データを表
2. ⾃自⼰己紹介 l 得居 誠也 (Seiya Tokui) l Preferred Networks リサーチャー l Jubatus のアルゴリズム開発 – Jubatus: NTTとPFIで共同開発しているオープンソースの分散 リアルタイム機械学習基盤 http://jubat.us/ l 現在は映像解析とディープラーニングの研究開発に従事 2 3. ニューラルネットの基礎、実装、実験について話し ます l ニューラルネットの道具 – 全体の構成、⾏行行列列による表現、損失関数、誤差逆伝播、SGD l 主要な実装 – Pylearn2, Torch7, Caffe, Cuda-‐‑‒convnet2 l フレームワークの基本的な設計 – テンソルデータ、レイヤー、ネット、最適化ルーチン – アーキテクチャの記述⽅方法(宣⾔言的、スクリプティング) l 実験の進め⽅方
概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。 目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。 そのためにも、簡単な本から始めて、少しずつ難しい本に挑戦して行きましょう。 入門書 何はともあれ、まずは機械学習のイメージを掴むことが大切です。 最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行本(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (38件) を見るレビュー :
この記事で、取り上げたいのは 「機械学習って何?」 ということです。 機械学習に興味がある人なら、少しはその内容について、かじったことがあるでしょう。ですが友人や同僚に機械学習の話をふると、誰かに「機械学習って何?」と質問されるリスクがあることを覚えておいてください。 この記事の目指すところは、機械学習について考えるための定義、それも覚えやすい気の利いた言い回しをいくつか提案することです。 まずは、この分野で信頼のおける教本から機械学習のスタンダードな定義について触れるところから始めましょう。それから機械学習についてのプログラマ的な定義をはっきりさせ、最終的には、「機械学習って何?」と聞かれても、いつでも答えられるようになるのが目標です。 信頼できる定義 それでは最初に、一般的に大学の講義レベルで、よく使われている機械学習の教本4冊から見ていきましょう。信頼できる定義であり、この問題を熟考
ウェブやインターネットコマースの隆盛によって、とてつもなく巨大なデータセットが出現し、そして、データマイニングによってそれらから情報が抽出されている。 巨大なデータに対するマイニングにおいては、従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。 本書はデータマイニングにおいて重要な問題の解決に使われてきており、さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを、データベースやウェブ技術の分野で著名な原著者が解説する。 まず、データマイニングの本質や、データマイニングがどのように扱われているかを概観する。次に、今後非常に大量のデータの解析を行う際に、クラウドコンピューティングとともに重要視されると考えられ、この後の章の議論に必須のものとなるマップレデュースを解説する。その後、類似するアイテム
ポニーの群れからシマウマを探す By エレン·フリードマン(MapR Technologies ビッグデータ・コンサルタント Apache Mahoutコミッター) オライリー社の実践機械学習シリーズの第2弾、テッド・ダニング氏との共著「異常検出の最新」が今週発行されました。以前の著作ではレコメンデーションに対する実践的なアプローチを取り上げ、皆さんが「ポニーが必要である」と考えるというところから始めました。第2弾では、ポニーの群れにいるシマウマ、群れの動きに逆らって泳ぐ魚のような稀に起こりうる異常値の発見について考えます。今回の目的は、どのように実践的な機械学習システムを構築すれば異常を発見できるか探ることです。このシリーズの目標は、実際の現場で必要とされる作業を考慮して問題解決を探っていくことです。 なぜ異常検出を使うのでしょうか? この手法への需要は広がり成長し続けています。異常検出
機械学習の問題 については以前に紹介したので、次はどんなデータを収集し、どんな機械学習アルゴリズムを使うことができるのかを見ていきましょう。本投稿では、現在よく使用されている代表的なアルゴリズムを紹介します。代表的なアルゴリズムを知ることで、どんな技法が使えるかという全体的なイメージもきっとつかめてくるはずですよ。 アルゴリズムには多くの種類があります。難しいのは、技法にも分類があり拡張性があるため、規範的なアルゴリズムを構成するものが何なのか判別するのが難しいということですね。ここでは、実際の現場でも目にする機会の多いアルゴリズムを例にとって、それらを検討して分類する2つの方法をご紹介したいと思います。 まず1つ目は、学習のスタイルによってアルゴリズムを分ける方法。そして2つ目は、形態や機能の類似性によって(例えば似た動物をまとめるように)分ける方法です。どちらのアプローチも非常に実用的
マイクロソフトは、機械学習サービスをクラウドで提供する「Microsoft Azure Machine Learning」の公開プレビューを来月から開始すると発表しました。 Microsoft Azure Machine Learning combines power of comprehensive machine learning with benefits of cloud - The Official Microsoft Blog - Site Home - TechNet Blogs 機械学習とは、例えばECサイトでの購買履歴を基にしたおすすめ商品の提示、金融取引での取引分析による不正行為の発見、あるいは工作機械の稼働履歴分析による故障時期予想、などの分野で利用されています。 しかし機械学習を実現するには、まず大規模なデータ分析基盤を構築し、そこに機械学習のアルゴリズムを実装した
統計学とか機械学習周りの本を読んでいると,何の説明もなくややこしい数学記号が出てきて,そういえばこれはなんだっただろう? と途方に暮れてしまうことが少なくないので,自分用にまとめなおしてみました,というのが今回のエントリ.あくまで自分用なので,全部の数学記号を扱ってるわけではありません*1. 代数学 記号 意味 用例 用例の意味 備考 総和 要するに足し算 総乗 要するにかけ算 クロネッカーのデルタ i=jなら1,それ以外なら0 要するにブーリアン条件 ナブラ *2 3次元ベクトルの微分 要するに各要素の微分 ラプラシアン 3次元ベクトルの2階微分 要するに各要素の2階微分 下限 のとき与式は0になる との違いは,は当該値を含む必要があるが,はないこと 上限 との違いは,は当該値を含む必要があるが,はないこと 関数値が最大となるような定義域の元の集合 を最大にするような がの下にくる場合も
第4回 Ques (2014.4.22 開催) でお話する「機械学習分野におけるテストの自動化」の発表資料です。
1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio
「図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術」という本を読んだ。 社会人のアヤとケンが社内研修で伝説のベイジアン先生からベイズの基礎を教わる、という設定の会話形式でベイズについて書かれた入門書。社内研修でベイズのプロから指導を受けるとかどんだけ恵まれてるんだ。 アヤさんは大学で統計をやったが数学は詳しくないという設定。ただ時々鋭い質問をする。また統計に詳しいイケメン兄がいる。 ケンくんは知識は全くなく最後まで「わかりません」を連発する。彼女持ちのリア充。 伝説のベイジアン先生は社内研修の講師。ベイズの基礎を豊富な具体例で教えてくれるまじぱない先生。あまりにもいけてるので数カ月後に転職しそうな感じ。 内容は1章が導入、2章が同時確率・条件付き確率、3章がベイズの定理、4章がベイズの定理を用いた事後確率計算の具体例、5章が事例の追加による事前確率の更新(具体例としてナイ
今年一年の機械学習を素人的に振り返ってみるとでぃーぷらーにんぐがすごかったなー、みたいなミーハーな感想がまず思い浮かぶわけなんだけども、実際のところ今ホットな研究は何なんだろうということで、泣く子も黙る機械学習の代表的な国際会議、NIPSとICMLの過去3年分の採択論文を著者にフォーカスしてみることにした。 1st authorの重要度をそれ以外の著者よりも重くしてスコアづけした。 (複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1とする) 参考: IR研究者をスコアリングしてみた - 睡眠不足?! NLP(自然言語処理)研究者をスコアリングしてみた 以下各々の自己紹介ページを参照しつつ、該当会議での1st author論文タイトルを引用して、スコアの上から順番にみていきます。名寄せミスなどによる集計ミスがあったらごめんなさい。 An
Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 本記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。 \vec{user_{1}} = (4, 5,
ビッグデータ活用:その分析実装として注目されるMahout 長年蓄積した企業内データや、ソーシャルネットワークサービス、センサ端末から集められる膨大なデータを活用し、企業における利益向上やコスト削減などに活用する動きが活発になってきました。 データの分析手段として最近とみに注目されている技術として「機械学習」があります。大規模データの処理を得意とする大規模分散処理基盤「Apache Hadoop」の強みを生かし、簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 本稿ではMahoutを用いたデータ分析の例として「文書分類」を取り上げます。マシンを用いて分析実行する際の手順や陥りがちなポイント、チューニング方法の一例を紹介します。 Mahoutとは? MahoutとはApache Software Foundationが公開しているOSSの機械
Libs and Papers on Large Scale Machine Learning. Acknowledgement Nash thanks Yin Zhu for providing many useful related libs and papers, thanks Erheng Zhong and Prof. Qiang Yang suggestions and discussions on this list. 2 computing models recently. assumes each data instance can be independently computed. A typical example is hadoop, the map function assumes each data unit can be processed independ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く