[B! learning] todogzmのブックマーク

これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei

最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル：機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました！(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの

todogzm 2011/02/11

リンク

第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog

2011/01/23 "第９回データマイニング+WEB 勉強会＠東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。第９回データマイニング+WEB 勉強会＠東京　( TokyoWebmining 9)−2ndW−方法論・ソーシャル祭り−: ATND Google グループ ※会場参加者ID写真（id:bob3 さんに感謝) 1st Week内容まとめ：第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ祭り− を開催しました - hamadakoichi blog 会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思ってい

todogzm 2011/01/23

リンク

機械の代わりに人間が学習入門

7. 年表で見る機械学習 1946 モンテカルロ法 PRML 1958 カルマン・フィルター PRML 1960s 隠れマルコフモデル PRML -1961 ニューラルネットワーク PRML 1977 EM アルゴリズム PRML 1982 SOM (自己組織マップ) PRML 1984 CART (決定木の一手法) PRML 1994 ICA (独立成分分析) PRML 1995 サポートベクトルマシン PRML Mahout 1995 粒子フィルタ PRML 2000 FP-Growth Mahout 2001 アイテムベース協調フィルタリング Mahout 2001 Random Forest Mahout 2003 LDA (Latent Dirichlet Allocation) Mahout • フルサイズの年表は http://d.hatena.ne.jp/n_shuyo/2

todogzm 2011/01/17

リンク

第50回練習の効果 | WIRED VISION

第50回練習の効果 2010年12月14日サイエンス・テクノロジーハッキングコメント：トラックバック (0) フィードサイエンス・テクノロジーハッキング（これまでの増井俊之の「界面潮流」はこちら）何かの練習を始めるとき、最初のうちは上達が実感できるものの、続けるうちに上達の速度が落ちたりスランプに悩んだりすることは誰もが経験することだと思います。ワインバーグの名著「ライト、ついてますか」などの翻訳者としても有名な東京工業大学名誉教授の木村泉氏は、練習量と上達の関係を定量的に評価したいと考え、大量の折り紙を自分で折るのに要する時間を計ることによってその関係について考察しました。木村氏は、吉澤章氏の「創作折り紙」という本で紹介されている「みそさざい」という作品を15万回折り続け、折るのにかかった時間がどのように変化したかを記録しました。折るのに要した時間を縦軸に/試行回数を横軸

todogzm 2010/12/15

練習の重要性がこれでもかと言わんばかりに出ている。

リンク

L1正則化について - DO++

先日L1正則化についての話をしてきました。 [ppt] [pdf] ちょっと専門的な話ですが、L1正則化はパラメータ推定のときにパラメータw∈R^m に対し|w|_1 = |w_1| + |w_2| + ...+|w_m| のペナルティをかけるもので、機械学習だけでなく、compressed sensingやらいろいろな分野で出てくる手法です。 L1正則化を使うと、殆どのパラメータが0になりコンパクトな学習結果モデルが得られる上に、ノイズが大きい場合にはそれらを無視することができます（L2の場合はrepresenter theoremより、重みベクトルは訓練ベクトルの線形和としてしか表せないので、要らない素性の重みを0にするようなことは難しくなります）さて、上の発表で話した中で今面白いのはL1-ball projectionという技術です。 "Efficient Projections

todogzm 2010/11/02

learning

リンク

「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記

Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこの本を読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって

todogzm 2010/10/21

リンク

Query Suggestion @ tokyotextmining#2

1) The document discusses query suggestion techniques using hitting time on graphs to model relationships between queries, reformulations, and URLs. 2) It presents algorithms for calculating the hitting time between nodes in a graph and using this to determine the likelihood of queries and URLs being related. 3) Experimental results on benchmark datasets show the hitting time approach achieves goo

todogzm 2010/09/25

リンク

第4回　正規分布［前編］ | gihyo.jp

今回と次回では前後編に分けて、統計においてもっともよく使われる確率分布である「正規分布」のお話をします。第2回・第3回の復習最初に、前回までのおさらいを簡単にしておきましょう。まず確率を定義するものとして、確率変数 X と確率分布 p(X) を紹介しました。これが「確率」であるためには、以下の2つの重要な条件を満たしている必要がありました。確率の値は0以上1以下すべての取り得る値の確率の合計は1 これらの条件は、今後機械学習を学んでいく上で、常に意識しておかないといけません。今回も使いますよ。それから、確率変数が複数ある場合の「同時確率」「⁠条件付き確率」「⁠周辺確率⁠」⁠、そして「事後確率」を導入し、「⁠確率の加法定理と乗法定理」という2つの定理と、「⁠ベイズの公式」を導きました。加法定理と乗法定理については、今回も使いますのでその時に確認しましょう。最後に、「⁠条件付き独

todogzm 2010/09/15

リンク

第3回　ベイジアンフィルタを実装してみよう | gihyo.jp

さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。ベイジアンフィルタの実装ここから本格的にベイジアンフィルタの実装に入っていきます。その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。リスト2　文章の分割をする関数（naivebayes.py） # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

todogzm 2010/09/15

リンク

第2回　確率の初歩 | gihyo.jp

今回は、機械学習で使う「確率」のお話です。確率は、統計的な機械学習のもっとも重要な基礎知識です。とはいえ、確率についてゼロから説明するというのは紙数的にも厳しいため、高校の確率を少し憶えているくらい（期待値や標準偏差など）を前提とし、「⁠高校の確率」と「機械学習の確率」の本質的な相違点について、少し丁寧に見ていく、という形で進めていきます。機械学習と確率最初に、機械学習にとって確率はどういう役割なのかを確認しておきましょう。実のところ、機械学習に確率が必須というわけではありません。ニューラルネットワークやサポートベクターマシンなどの有名な手法も「確率を用いない機械学習」ですし、その他にも数多くの手法があります。しかし、「⁠確率を用いない機械学習」の多くは、「⁠結果のランキングを作りづらい（評価値の大小に意味がない⁠）⁠」⁠「⁠条件が異なる場合の結果を比較できない」などの欠点がありま

todogzm 2010/09/15

リンク

Perceptron を手で計算して理解してみる (nakatani @ cybozu labs)

Perceptron の実装とか見ると、ものすごく簡単なので、本当にこれで学習できちゃうの？　と不安になってしまいました(苦笑)。こういうときは、実際にパーセプトロンが計算しているとおりに、紙と鉛筆で計算してみて、期待する結果が出てくることを確認してみたくなります。参照する教科書は「パターン認識と機械学習・上」(PRML) の「 4.1.7 パーセプトロンアルゴリズム」。短い節です。必要最低限のことを一通り書いてある感じかな。計算に用いるサンプルですが、手で計算できる規模でないといけないので、論理演算の AND を試してみることにします。簡単に勉強ちゃんとした説明は PRML などを見て欲しいですが、とても簡単にまとめます。２値の線形識別モデルは、N 次元空間内を (N-1) 次元の超平面(決定面)で分割することで、入力ベクトル x から得られる特徴ベクトル φ(x) が２つ

todogzm 2010/09/08

リンク

第1回　機械学習ことはじめ | gihyo.jp

次のサービスや製品はどれも身近にありますが、これらに共通していることはなんでしょう。 Amazonの「この商品を買った人はこんな商品も買っています」はてなブックマークの「関連エントリー」 Google 翻訳 Google 日本語入力メールクライアントのスパムフィルタデジタルカメラの自動顔認識ニンテンドーDSの手書き文字認識買い物履歴、ユーザが書いたコメントやタグ、Webに無数にあるページ、メール、画像や動画と対象はそれぞれ異なっていますが、どれも「データから有益な情報を取り出す」ということを行っています。これらは「機械学習」という技術を使って実現されているのです。機械学習の応用範囲機械学習は冒頭で挙げた以外にも、様々な分野で使われています。例えば、ノイズ除去や特徴の抽出を目的とした利用パターンがあります。音声認識や画像認識、文字認識（OCR）などはその代表格です。それらも

todogzm 2010/09/03

learning

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

learningに関するtodogzmのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス