タグ

機械学習に関するhayato34のブックマーク (27)

  • Deep Learning技術の今

    第2回全脳アーキテクチャ勉強会での講演スライドです。Deep Learning の基礎から最近提案されている面白トピックを詰め込んだサーベイになっています。

    Deep Learning技術の今
  • SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ

    SVMツールで有名なLIBSVMの作者らがまとめた "A Practical Guide to Support Vector Classification" という良資料[1]の日語解説資料をまとめてみたので公開. SVM実践ガイド (A Practical Guide to Support Vector Classification) View more presentations from sleepy_yoshi 元資料はこちら 資料作成のきっかけは,まわりの人に「SVMとかいう手法使ったんだけど,機械学習よくわからなくてさ」という感じで相談を受けて「カーネルは何使ってるの?」「素性のスケーリングはした?」「Cパラメータは調整した?」というようなことを聞くのだけれど,「???」というやりとりにうんざりしたから. その都度,Cパラメータというものがありまして〜,カーネルというものが

    SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ
  • 大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料 - hamadakoichi blog

    2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年ではないでしょうか。 Mahoutは 大規模分散データマイニング・機械学習のライブラリです。ApacheプロジェクトのOpen Sourceで、Hadoop上で動作しデータマイニング・機械学習の大規模分散実行を行うことができます。 Apache Mahout 大規模分散 データマイニング・機械学習を実行できる Mahout ですが、まだ「ドキュメント整備が発展途上で詳細を知るためにはソースコードから読み解く」必要がある場合が多く、また、活用には「対象とするデータマイニング・機械学習の基礎知識」が必要なため、まだまだ活用の敷居が高いのが現状ではない

    大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料 - hamadakoichi blog
  • PRML副読本「パターン認識と機械学習の学習」を出版します | TAKESAKO @ Yet another Cybozu Labs

    2010年~2011年に社内で開催した機械学習勉強会の『パターン認識と機械学習読書会で、光成さんが素晴らしいアンチョコを作ってくれました。PDFファイルは既にgithub 上で公開されていますが、このまま埋もれさせておくのはもったいないということで、暗黒通信団の同人誌として正式に出版されることが決まりました。 ※ 表紙のデザインは今後変更される可能性があります。 目次は以下の通りです。 第 1 章  「序論」のための確率用語 1.1      確率変数は変数なのか..............................  7 1.1.1   確率空間(Ω, F, P).............................  7 1.1.2   σ 加法族.....................................  8 1.1.3   確率変数X..........

  • 意見(評価表現)抽出ツール

    目次 意見(評価表現)抽出ツールとは 高度言語情報融合フォーラム(ALAGIN)で公開されているモデルデータと辞書データについて 新着事項 ご利用にあたっての注意事項 ダウンロード ツールの実行環境 意見(評価表現)抽出ツールの動作確認方法 モデルデータの生成 このパッケージに含まれているディレクトリ・ファイル 解析精度 参考文献 著作権&ライセンス 付録 意見(評価表現)抽出ツールとは ツールは、国立研究開発法人情報通信研究機構 旧知識処理グループ 情報信頼性プロジェクトによって開発されたもので、1行につき1文が書かれたテキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価(以下、これらをまとめて「評価情報」と呼びます)がテキスト中のそれぞれの文に存在するかどうかの判定を行い、その文に評価情報が存在すると認められた場合、以下の情報を出力するツールです。

  • ノンパラベイズ勉強会2012

    統計数理研究所 東京都立川市(最寄り駅・多摩モノレール高松) 2012年 3月15日午後~3月16日午前  (セミナー室2 D304:人数によって変更の可能性あり) 地図はここ 自然言語処理および音楽情報処理におけるノンパラメトリックベイズ法(すなわち,ディリクレ過程やその一般化・階層化を含む生成モデルを使った情報処理)について,初歩から最先端まで解説していただく集中講演を企画しました.もともとは,非線形科学,統計物理など他分野の共同研究者のために企画したものですが,統計科学や機械学習の方でこれから参入したい方,教師なし形態素解析に興味のある方などの参加も歓迎します. 3月15日 13:00-17:30頃 (適宜休憩をとります) 持橋 大地(統計数理研究所) ノンパラメトリックベイズ法による言語モデル 3月16日 10:00-12:30頃 (適宜休憩をとります) 吉井 和佳(産業技術総合研

  • データマイニングCROSS 第2部-機械学習・大規模分散処理

    "IBIS2012 (情報論的学習理論と機械学習研究会) -ビジネスと機械学習の接点 -" の講演資料です。データマイニング・機械学習を活かし実際にサービスをよくしていく・効果を出していくためにMobageで行っている活動を紹介しています。アレンジして頂いたPFI比戸さん・東京大学 鹿島さんに感謝。

    データマイニングCROSS 第2部-機械学習・大規模分散処理
  • SVMにおける損失と正則化 - 射撃しつつ前転 改

    前に書いたSVMの記事で、「L1とかL2というのは間違えたときのペナルティをどう定義するかを意味しており」と書いていたが、L1とかL2って正則化項の話なんじゃないの、と疑問に思った。1ヶ月ほど時間をおいてのセルフツッコミである。確認しようとしてカーネル多変量解析を読むと、やはり正則化項についてはL1とL2の両方の説明が書いてあるが、損失に関しては普通のHinge Loss(=L1 Loss)しか書いてない。 と言う訳で、ああ、間違えちゃったなぁ、と暗澹たる気持ちで"A dual coordinate descent method for large-scale linear SVM"を読み直してみたところ、やっぱりL1-SVMというのは損失が普通のHinge Lossで、L2-SVMというのはHinge Lossの2乗を損失とすると書いてあった。両方とも正則化項についてはL2正則化を使って

    SVMにおける損失と正則化 - 射撃しつつ前転 改
  • SVM-Light(オプション、使い方)

    ここではソフトウェアSVM-Lightの使い方を説明します。SVM自体の原理を知りたい方は「Chris Burge氏のチュートリアル」が良い教科書となるでしょう。 SVM-Lightは学習モジュール(svm_learn)と識別モジュール(svm_classify)で構成されています。この識別モジュールは、学習されたモデルを新たなサンプルに適用することが出来ます。詳しくは以下に示す「svm_learn」と「svm_classify」の使い方を参照してください。 svm_learn svm_learnは次のようなパラメータによって呼び出されます。

  • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

    今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

    ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
    hayato34
    hayato34 2010/10/13
    ボキャブラリ数が多い場合は多項モデルの方が精度が高いことが示されています。ベルヌーイモデルは出現しない単語の確率も考慮するので計算量も大きいです。
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • Transformed Weight-normalized Complement Naive Bayes(TWCNB)についての実験と結果 - rubyu's blog

    自作ソフトにテキストの多クラス分類機能を組み込みたくて、調べてみたら Complement Naive Bayes(CNB、補集合ナイーブベイズ)というアルゴリズムが最近の流行のようで、これを検証してみることにしました。 元論文 を一通り読んでから検証を進めていきました。実装される際は目を通すことをオススメします。 使用したコーパスは以下のようなもの 想定する用途に合わせて、それなりにクラス間でデータの量にばらつきがあります。 クラス ファイル数 サイズ A 832 121MB B 491 182MB C 449 59MB D 312 111MB E 298 26MB F 245 67MB G 234 73MB H 210 33MB I 123 33MB J 63 3MB K 62 14MB L 47 6MB M 47 5MB ひとまず、シンプルなナイーブベイズを 集合知プログラミング を

    Transformed Weight-normalized Complement Naive Bayes(TWCNB)についての実験と結果 - rubyu's blog
  • 共訓練 - 機械学習の「朱鷺の杜Wiki」

    共訓練 (co-training)† 半教師あり学習を実現する手法の一つ 事例の定義域は \(X\) は \(X_1\times X_2\) に分割できる.すなわち,一つの事例を二種類の属性ベクトルで表現できる. 例えば,一つのWebページがテキストに基づく特徴\(X_1\)と,リンクに基づく特徴 \(X_2\) で記述されているなど. \(X_1\) と \(X_2\) のどちらか一方だけでも分類には十分とする. \(\mathcal{D}\) は \(X\) 上の分布. \(\Pr{}_{\mathcal{D}}(x)\ne0\)なる事例 \(x\in X\) について,ラベル付け関数は無矛盾,すなわち,\(f(x\in X)=f_1(x_1\in X_1)=f_2(x_2\in X_2)\).これが成立する仮定をcompatibleという. ここで,\(x_1\in X_1\) と

    hayato34
    hayato34 2010/09/16
    co-training
  • http://www.bi.a.u-tokyo.ac.jp/~tak/index.html

    hayato34
    hayato34 2010/09/16
    LibSVMの使い方
  • SVMソフトウェアの比較 - tsubosakaの日記

    オープンソースのSVMソフトウェアの基デフォルトの設定で比較などをしてみた。 利用データはLIBSVM Data: Classification, Regression, and Multi-labelのa9aとnews20.binaryを利用した。 データセットの詳細は以下のようになっている データセット名 訓練データ数 テストデータ数 データの次元 a9a 32561 16281 123 news20.binary 15000 4996 1355199 なお、news20.binaryでの訓練データとテストデータの作成については id:n_shuyoさんの記事を参考にした。 比較に用いたソフトウェアは以下の5つ LIBSVM リンク SVM-Light リンク TinySVM リンク SVM-perf リンク LIBLINEAR リンク 測定結果は以下のようになった。パラメータの設定

    SVMソフトウェアの比較 - tsubosakaの日記
    hayato34
    hayato34 2010/08/01
    SVMソフトウェアの比較
  • LIBLINEAR -- A Library for Large Linear Classification

    Machine Learning Group at National Taiwan University Contributors Version 2.47 released on July 9, 2023. We fix some minor bugs. Version 2.43 released on February 25, 2021. Installing the Python interface through PyPI is supported > pip install -U liblinear-official The python directory is re-organized so >>> from liblinear.liblinearutil import * instead of >>> from liblinearutil import * should b

    hayato34
    hayato34 2010/08/01
    線形モデル
  • lwlm, The Latent Words Language Model.

    Daichi Mochihashi NTT Communication Science Laboratories $Id: lwlm.html,v 1.1 2010/03/19 10:15:06 daichi Exp $ lwlm is an exact, full Bayesian implementation of the Latent Words Language Model (Deschacht and Moens, 2009). It automatically learns synonymous words to infer context-dependent "latent word" for each word appearance, in a completely unsupervised fashion. Technically, LWLM is a higher-or

    hayato34
    hayato34 2010/05/06
    潜在語言語モデル(LWLM)
  • コロナ社|書籍詳細|機械学習入門

    自然言語処理における機械学習の利用について理解するため,その基礎的な考え方を伝えることを目的としている。広大な同分野の中から厳選された必須知識が記述されており,論文や解説書を手に取る前にぜひ目を通したい一冊である。

    hayato34
    hayato34 2010/05/04
    期待
  • manual - 機械学習勉強会Wiki

    はじめに † 機械学習テンプレートライブラリは,自然言語処理へ機械学習を応用する研究や,より自然言語処理に適した機械学習手法の開発を容易にするための C++ テンプレートライブラリです.特に,系列構造や木構造など,自然言語の構造を表現するのに適した構造に対して,様々な機械学習アルゴリズムを利用できるように設計されています. 設計の特徴として,データ構造を表すクラスと学習アルゴリズムを表すテンプレートクラスを分離し,これらの間をつなぐインタフェースを設定することで,汎用性を高めています.これにより,新たにデータ構造クラスを作成した場合に様々な学習アルゴリズムとの組み合わせを容易に試すことができ,逆に,新たな学習アルゴリズムを実装した場合には様々なデータ構造との組み合わせを試すことができます. 現在のところ,以下のデータ構造が実装されています. 多クラス分類 ― 文書分類,関係抽出など 可変候

    hayato34
    hayato34 2009/12/08
    機械学習テンプレートライブラリ
  • BLOG::broomie.net: 各種分類器の分類精度を示した絵がおもしろい

    今日会社で多次元のデータを2次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない?的な会話をしていたのだけれども、2次元にデータを落とし込むと人間にもわかるデータになって当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を2次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー!と個人的にはかなりエキサイティングな感じでした。 要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと

    hayato34
    hayato34 2009/12/08
    僕も分類ライフをエンジョイしたい><