[B! 機械学習] you21979のブックマーク

第21回（最終回）　機械学習はじめよう | gihyo.jp

連載第1回が掲載された2010年の6月から、休み休みながらも足かけ3年続いてきたこの『機械学習はじめよう』も今回が最終回です。 21回にわたる連載の最後を飾る今回は、ここまでの流れの中では触れられなかった「機械学習で実用的なアプリケーションを作るときに気をつけたいこと」を中心にいくつかまとめます。未知のデータへの対応能力第9回で「過学習」について少し紹介しました。簡単に復習すると、「⁠過学習」とはモデルが「訓練データさえ正解になればいい」と状態になってしまうことで、未知のデータ（訓練データに含まれない、モデルが知らないデータ）に対する結果がデタラメになりがちという困った特徴があります。しかも都合の悪いことに、モデルの表現力が高い（パラメータが多く、色々な分布を表すことができる）ほど過学習になりやすいことがわかっています。そんな困った過学習を防ぐ方法の1つは、期待した答えのみが得ら

you21979 2016/03/12

リンク

ルールベースから機械学習への道公開用

このスライドの目的はルールベースは多くのプログラマができている。�機械学習への橋渡しを詳細に解説することで�ツールとして機械学習を活用できる人を増やすことです。

you21979 2015/09/27

機械学習

リンク

機械学習をこれから始める人に押さえておいてほしいこと - Qiita

いしたーです。アルバイトで機械学習やってます。こんにちは。とある勉強会に出席したときに、「機械学習をやりたいけどわからないことが多い」という意見を聞いたので、いくつかアドバイスを載せておきます。読む前の注意研究についてのアドバイスは書いていません。趣味で機械学習をやろうと思っている方が対象です。この記事は他の方の意見をまとめたものではありません。私個人の経験に基づいて書いたものです。よって、この記事の内容はほとんど「私の意見」です。以上2つの注意点を踏まえた上でお読みください。「機械学習で何をしたいのか」を決めてほしい機械学習を学ぶ前に、機械学習を使って何をしたいのかを決めてください。機械学習は数式がたくさん登場したり、難しい概念を理解しなければならなかったりすることがあります。やりたいことを決めてから学ぶと、今自分はある目的を達成するために学んでいるんだと思うことができ

you21979 2014/12/07

機械学習

リンク

パターン認識・機械学習勉強会

2014年パターン認識・機械学習勉強会資料第1回:イントロダクション第2回:ベイズ確率・ベイズ識別・モデルの検証第3回:モデル選択基準・MCMC法第4回:ギブスサンプリング・線形識別モデル第5回:線形識別モデル:ロジスティック回帰第6回:線形識別モデル:ベイズロジスティック回帰,フィッシャーの線形判別第7回:ニューラルネットワーク第8回:ニューラルネットワーク(続き) 第9回:ニューラルネットワーク(続き) 第10回:カーネル法, カーネル密度推定法,カーネル回帰分析第11回:カーネル法:ガウス過程第12回:サポートベクターマシン, ソフトマージン第13回:多クラスSVM, SVM回帰, 関連ベクターマシン第14回:ベイジアンネットワーク第15回:ジョインツリーアルゴリズム第16回:ジョインツリーアルゴリズム(続き) 第17回:マルコフ確率場・ファクターグラ

you21979 2014/11/20

機械学習

リンク

JavaScriptでの機械学習チュートリアル、他

you21979 2014/10/07

機械学習

リンク

機械学習のレベル別学習法 | POSTD

Metacademyの発足以来、よく聞かれる質問があります。機械学習について”さらに”詳しくなりたいが、何を学べばよいか分からない場合はどうすればいいですか？このすばらしい質問に対して、私はこう答えます。一貫してテキストブックから学びましょう。すると、質問した人たちは顔をしかめます。それはまさに、体形の崩れた人が健康的な友人から「私は食事に気をつけて、運動を欠かさないようにしてるからね」と言われた時に見せる表情に似ています。進歩するには、粘り強い鍛錬とやる気、そして自分自身で課題に取り組む能力が必要です。このことは皆さんもすでにご存じでしょう。しかし、なぜテキストブックにこだわる必要があるのでしょうか？テキストブックは、本当の意味で知識を習得するための数少ない手段の1つです。皆さんは講座を受けたり、MOOCを受講したり、読書会に入ったりして、自分の好きなやり方で学ぶことができ

you21979 2014/09/17

機械学習

リンク

第2回　確率の初歩 | gihyo.jp

今回は、機械学習で使う「確率」のお話です。確率は、統計的な機械学習のもっとも重要な基礎知識です。とはいえ、確率についてゼロから説明するというのは紙数的にも厳しいため、高校の確率を少し憶えているくらい（期待値や標準偏差など）を前提とし、「⁠高校の確率」と「機械学習の確率」の本質的な相違点について、少し丁寧に見ていく、という形で進めていきます。機械学習と確率最初に、機械学習にとって確率はどういう役割なのかを確認しておきましょう。実のところ、機械学習に確率が必須というわけではありません。ニューラルネットワークやサポートベクターマシンなどの有名な手法も「確率を用いない機械学習」ですし、その他にも数多くの手法があります。しかし、「⁠確率を用いない機械学習」の多くは、「⁠結果のランキングを作りづらい（評価値の大小に意味がない⁠）⁠」⁠「⁠条件が異なる場合の結果を比較できない」などの欠点がありま

you21979 2014/08/05

機械学習

リンク

機械学習はじめよう記事一覧 | gihyo.jp

you21979 2014/08/05

機械学習

リンク

統計科学・機械学習の講義

統計科学や機械学習、および関連する諸分野の講義・講演のアーカイブです。講師名の敬称は略させて頂いています。★の数は専門性・予備知識の量を示します。★１つは一般の方でも楽しめる部分のある講演（レベルが低いという意味ではありません）、★２つは大学院生向きとして標準程度、★３つはより専門的な講演、をそれぞれ示します。

you21979 2014/08/01

機械学習

リンク

ランダムフォレストで遊ぶ - Negative/Positive Thinking

はじめに簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ詳細な紹介や内容は「参考」を参照これ自体は、枠組み(フレームワーク)的な感じが強い単純な場合、以下のようなパラメータがある決定木の個数決定木で使用する学習データの割合決定木の種類決定木の深さの制限決定木の各ノードで使用する判別関数・基準決定木で使用する素性の割合など各決定木間の相関が低くなるよう、いろんなところにランダム性を取り入れている逆に相関が高い場合は、みんな同じような結果を出力しやすいので、みんな間違えてると意味がないまた、各決定木は独立しているので、並列処理できるいろんな実装本家Breimanによる実装(Fortran)、Open

you21979 2014/07/09

機械学習

リンク

Random forest - Wikipedia

ランダムフォレスト（英: random forest, randomized trees）は、2001年にレオ・ブレイマン（英語版）によって提案された[1]機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。アルゴリズム[編集] 学習[編集] 学習を行いたい観測データから、ブートストラップ法によるランダムサンプリングにより B 組のサブサンプルを生成する各サブサンプルをトレーニングデータとし、B 本の決定木を作成する指定したノード数に達するまで、以

you21979 2014/07/09

リンク

http://download.jubat.us/event/handson_01/

you21979 2014/03/29

リンク

パッケージユーザーのための機械学習(5)：ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ

（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが（笑）、教師あり学習＆分類器系では一旦これでシリーズを〆る予定です。トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回（と次回予定の5回分まとめ）の記事を読んでもらいたいなぁと思います。今回の参考文献もピンクの薄い本です。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。はじめてのパターン認識作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行本（ソフトカバー）購入: 1人クリック: 7回この商品を含むブログ (4件) を見る他だと、例

you21979 2013/12/26

機械学習

リンク

Goでb-bit Minwise Hashing実装した話 - Qiita

Machine Learning Advent Calendar向けの記事です。はじめに最近、個人的にGo言語を触ることがちょいちょいあります。型があって割と高速に動いてくれて、ポータビリティの高いとこが気に入ってるのですが、何十万・何百万人に推薦データを提供することが使命な会社にいるなら、これを推薦に使おうかなと画策しています。というわけで今回は、周囲が皆サーベイ論文紹介とかなので若干毛色違いますが、Goでb-bit Minwise Hashingを実装したことについて書きます。 b-bit Minwise Hashingとは Minhash、及びb-bit Minhashについては、既にPFIの岡野原さんによる素晴らしいPostがあるため、詳しく知りたい方はそちら+その中で紹介されている論文を読んでいただくのが一番かと思います。参考: MinHashによる高速な類似検索 ht

you21979 2013/12/17

リンク

node.jsで、タグ付けツール - shutdown -r now

前回は、node-naivebayes-simpleの簡単なサンプルを実行してみた。機械学習は、いかに質のよい学習データを作るかが重要だと思う。自分でデータを作るのはメンドクサイので、はてブからデータを頂くことにした。はてブのタグ一覧から、タグとWebページのタイトルを取得して、学習させてみる。 node.jsのプラグインで、Webページのクローラは、いろいろあるようだけれど、今回はjqueryプラグインを使ってみた。だって、jqueryに慣れているんだもん。まずは、jqueryプラグインのインストール $ npm install -g jquery $ npm ln jqueryで、書いたのが下のようなコード var Train = require('naivebayes-simple').Train; var querystring = require("querystrin

you21979 2013/07/11

機械学習

リンク

一般向けのDeep Learning

PFI 全体セミナーで発表した、専門家向けではなく一般向けのDeep Learning（深層学習）の解説です。どのような場面で活躍しているのか、今までの学習手法と何が違うのかを解説しています。

you21979 2013/06/03

機械学習

リンク

機械学習チュートリアル@Jubatus Casual Talks

SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜SSII

you21979 2013/06/02

教師有りは人口無能の仕組み？

機械学習

リンク

Jubatusビッグデータへの挑戦　その２

押し寄せる膨大な「今」を瞬時に賢く分析する：Jubatus（ユバタス）。 Jubatusは、NTTが2011年10月よりオープンソースソフトウェアとして公開しているBigData(ビッグデータ)のリアルタイム処理を可能としています。この映像の英語版が、JIB-TVにて2013/3/22に放映されました（http://www.jibtv.com/jp/video/video6.html）

you21979 2013/06/02

リンク

試すのが難しい―機械学習の常識はMahoutで変わる

ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品