機械学習に関するmayakovskiiのブックマーク (10)

  • Machine Learningのカレンダー | Advent Calendar 2012 - Qiita

    Machine Learning Advent Calendar 2012とは パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関するアドベント・カレンダーです。 当初PRML Advent Calendarとして立てたのですが、PRMLは敷居が高すぎるのかネタだと思われてるのか皆ROMる気満々で執筆側に誰も回ってくれる気配がなかったので、対象を機械学習全般にしてみました。URLが変更になりすみません。 参加方法 とりあえず参加登録をポチる 自分の担当の日に機械学習に関するちょっとした記事を書く みんなで読む 記事内容は、パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関する事でしたら何でもOKです。テーマに沿っていれば分量は問いません。 (PRMLの読んだ箇所のまとめ、実装してみた、論文紹介、数式展開、etc.) 皆さんのご参加をお

    Machine Learningのカレンダー | Advent Calendar 2012 - Qiita
  • 過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶

    データマイニングのコンペティンションサイトKaggle: Your Home for Data Scienceに投稿された記事であるThe Dangers of Overfitting or How to Drop 50 spots in 1 minute | No Free Hunchの自分用まとめ. 要約 あるコンペにて「勝った!!!!!!!!!!!」と思ったが蓋を開けてみれば2位から52位に落ちてた 過学習ダメ絶対 cross validation は適切に行わないといかん そもそも Kaggle で Online Privacy Foundation が主催していた,Twitterアカウントごとに0/1を予測するコンペに参加した. Kaggle のランキングシステムは Public と Private で分かれていて,コンテストが終了するまではテストデータの一部だけを使った答え合わ

    過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶
  • SVM のチューニングのしかた(1) - ほくそ笑む

    SVM のチューニング SVM(Support Vector Machine) はみなさん御存じ機械学習の手法です。 SVM はデフォルト設定でモデルを作ってもしょうがないです。gamma と cost というパラメータがあるので、これらの値に最適値を設定しなければなりません。R の SVM の Help にもこう書いてあります。 Parameters of SVM-models usually must be tuned to yield sensible results! (訳) SVM でいい結果出したかったらチューニングしろよな! というわけで、SVM のチューニングのしかたについて説明したいと思います。 交差検証 おっと、その前に、交差検証の話をしなければなりません。 SVM モデルをチューニングする際、二つのパラメータでグリッドサーチをします。 すなわち、パラメータをいろいろ変

    SVM のチューニングのしかた(1) - ほくそ笑む
  • 交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む

    分類器(識別器)のモデルを評価する手法に交差検証(クロスバリデーション)があります。 交差検証を行うには、データをいくつに分割するかを表す k の値を決めてあげなければなりません。 SVM のチューニングのしかた(1) において、交差検証の k の値を決めるとき、僕は個人的に k = 1 + log(n)/log(2) という式を用いていると書きました。 この式は、知っている人ならわかると思いますが、スタージェスの公式です。 スタージェスの公式は、ヒストグラムを描く際にサンプル数から階級数を決めるのに便利な公式です。 しかし、この公式を交差検証の k を決める際に使用するのは、はっきりいって根拠がありません。 そこで、今日は交差検証の k の値をどのくらいにすれば良いのかについて考えてみたいと思います。 準備(予備知識) k の値は大きければ大きいほど、正確にモデルを評価できます。 k の

    交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • Machine Learning | Coursera

    We asked all learners to give feedback on our instructors based on the quality of their teaching style.

    Machine Learning | Coursera
  • テキストマイニングのための機械学習超入門 一夜目 - あんちべ!

    テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

    テキストマイニングのための機械学習超入門 一夜目 - あんちべ!
  • 系列ラベリング問題メモ - Negative/Positive Thinking

    はじめに 系列ラベリング問題についてちょっと調べてみたのでメモ。 系列ラベリング(系列分類)問題とは ある系列xの各要素に適切なラベル列yを付与する問題 例えば「This is a pen」という文書の各単語に「This(代名詞) is(動詞) a(冠詞) pen(名詞)」のように品詞ラベルをつける問題(品詞タグ付け) 系列だけでなく木構造などへの適用もされている 構造学習 ラベル、木、グラフ、順序集合など 応用 品詞分類 形態素解析(ラティスのコスト計算なども) チャンキング(基名詞句(Base NP)同定、固有表現抽出、文節まとめあげなど) 系列セグメンテーション問題 時系列解析や画像認識 など 系列ラベリング問題の特徴 普通の多値分類との違いは、「注目している要素xi以外の情報も使えること」と「クラスの数が膨大になりやすいこと」がある。 注目している要素以外の情報も使える 多値分類

    系列ラベリング問題メモ - Negative/Positive Thinking
  • PRML 読んでやってみた(下巻編) - 木曜不足

    昨日の記事を書いて、そういえば「パターン認識と機械学習」(以下 PRML) 上巻については「やってみた」「試してみた」系の記事をまとめページを作っていたことを思い出した。 PRML 読んでやってみた(上巻編) http://d.hatena.ne.jp/n_shuyo/20100505/prml そして、これの下巻編を作るの忘れてたので、ここにまとめておこう。 基的には PRML を読む中で、当にそうなのかなというあたりを手を動かしてみて確かめてみたという内容。実装は主に R で、たまに Python + numpy を使っている。 専門でない人間がやっているわけで、いろいろ間違っているかもしれない点はあらかじめ(実際、変分ベイズのときは盛大に間違えてた)。 6章 カーネル法 PRML6章「ガウス過程による回帰」を R で試す http://d.hatena.ne.jp/n_shuyo

    PRML 読んでやってみた(下巻編) - 木曜不足
  • コンピュータ将棋の学習の失敗談。 - IHARA Note

    日の日記は数年前の失敗談である。そして、コンピュータ将棋の話でもあり、機械学習の話でもある。 まずはざっくりとした話から始めよう。今のコンピュータ将棋というのは、探索と評価関数からできている。探索がおよそ読みに相当し、評価関数がおよそ大局観に相当する。この評価関数というのは以前は技術者が経験と勘に基づいて職人芸で作っていたそうなのだが、今は自動的なパラメータ学習によって作られている。 評価関数作成が職人芸から自動学習へ移り変わったのはまだつい数年前のことであり、これが大きなブレイクスルーだった。それ以前にも自動学習の試みはあったらしいが、実用的になったのはBonanzaというソフトからだそうである。 何をもとに自動学習しているのかといえば、プロ棋士やトップアマチュア棋士たちの棋譜である。ここからパラメータを自動決定している。棋士たちの棋譜を「模範解答」とし、それをはじき出すようなパラメー

    コンピュータ将棋の学習の失敗談。 - IHARA Note
    mayakovskii
    mayakovskii 2010/11/27
    「どうせなら、人間の模範解答に頼らずに将棋のルールのみからパラメータを自動学習し、人間に勝利したい。これこそが完全勝利だと思う。教師なし学習こそが完全勝利だと思っている。」
  • 1