タグ

機械学習に関するtorutoのブックマーク (96)

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • MLTL: Machine Learning Templete Library

    MLTL: 機械学習テンプレートライブラリ Introduction MLTL機械学習テンプレートライブラリは,自然言語処理へ機械学習を応用する研究や,より自然言語処理に適した機械学習手法の開発を容易にするため,YANS活動の中で清水伸幸と宮尾祐介を中心として作られた C++ テンプレートライブラリです.特に,系列構造や木構造など,自然言語の構造を表現するのに適した構造に対して,様々な機械学習アルゴリズムを利用できるように設計されています. 設計の特徴として,データ構造を表すクラスと学習アルゴリズムを表すテンプレートクラスを分離し,これらの間をつなぐインタフェースを設定することで,汎用性を高めています.これにより,新たにデータ構造クラスを作成した場合に様々な学習アルゴリズムとの組み合わせを容易に試すことができ,逆に,新たな学習アルゴリズムを実装した場合には様々なデータ構造との組み合わせを試

  • en:Weka 3.4.7 - WekaDoc

  • weka wiki - Seesaa Wiki(ウィキ)

    [ 一般 ] weka wiki 自分に要るところしかがんばらなーい 編集 履歴 添付 設定 新規ページ作成 メニュー このウィキの読者になる カテゴリー 最近更新したページ 2006-04-22 FrontPage 2006-04-19 classifiers.trees.J48 Classifiers unsupervised.attribute.Discretize supervised.attribute.Discretize classifiers.meta.OrdinalClassClassifier exp1 2006-04-18 unsupervised.attribute.AddExpression 2006-04-15 classifiers.meta.AdaBoostM1 bayes wekaword Clusterers 2006-04-13 supervised.

  • Weka入門 〜決定木とデータセットの作り方〜 in松村研

    Weka入門 決定木とデータセットの作り方 インストール手順 まずは決定木を作ってみよう 入力データを用意しよう 分析結果の意味を知ろう tips キーワード: データマイニング weka 決定木 この文書を自由に改変、転載することを許可します。連絡不要 ● Wekaインストール Weka入手場所 http://www.cs.waikato.ac.nz/~ml/weka/index_downloading.html Windows版では2種類ダウンロードできるファイルがあるが、これはJavaが含まれているかどうかの違いです。 お手持ちのPCJava環境が入っていればwithout the Java VMの方を。 Javaが入っているかどうかわからない、もしくはJavaのバージョンが1.4より古い場合は includes Java VM 1.4の方をダウンロードして下さい

    toruto
    toruto 2008/10/11
    分析結果の意味を知ろう
  • まめトーーク! Random Forest

    十~数百、それ以上のデータがある状態で分類器を構築する場合、私はRandom Forestをよく使います。Random Forestとは、標データを復元ありの無作為抽出 (bootstrap)して作成した仮想データを多数生成して、それぞれのデータに対して毎回ランダムに選択した変数群を用いて決定木を構築、各々の決定木の多数決で予測を行うといった分類器です。bootstrapでデータの揺らぎを学習し (bagging)、多数の異なる決定木の多数決 (ensemble)でモデルの揺らぎを学習するイメージです。予測精度が高く、過学習 (overfit)しない点、bootstrapにより予測率が評価されるので、cross validation等が必要ない点など、扱いやすい方法です。 Rで計算できます。 パッケージをロードして、データを読み込みます (データはここからDLできます)。 library

    toruto
    toruto 2008/10/11
    Random Forest
  • Machine Learning/Decision Trees/C4.5 Tutorial

    References: P. Winston, 1992. C4.5 is a software extension of the basic ID3 algorithm designed by Quinlan to address the following issues not dealt with by ID3: Avoiding overfitting the data Determining how deeply to grow a decision tree. Reduced error pruning. Rule post-pruning. Handling continuous attributes. e.g., temperature Choosing an appropriate attribute selection measure. Handling trainin

    toruto
    toruto 2008/10/10
    決定木 C4.5
  • C4.5 - Wikipedia

    C4.5はロス・キンランが開発した決定木を生成するためのアルゴリズムである。C4.5はキンランのID3アルゴリズムの拡張である。C4.5が生成する決定木はクラス分けのために使うことができ、このため、C4.5はしばしば統計学的クラス分類器とみなされている。 アルゴリズム[編集] C4.5はID3と同じ方法で情報エントロピーの概念を用いて教師データのセットから決定木を生成する。教師データはすでにクラス分けがされているサンプルである。それぞれのサンプルは属性や特徴を表現するベクトルである。教師データはそれぞれのサンプルが属するクラスを表現しているベクトル で拡張される。 C4.5はそれぞれのデータの属性はデータを更に小さな部分集合に分割する決定に使用できるという事実を利用している。C4.5はデータを分割するための属性を選択した結果による正規化されたインフォメーション・ゲイン(エントロピーの違い)

  • Color Coherence VectorをJavaで実装してみた 2008-10-07 - きしだのはてな

    こちらで紹介されてたアルゴリズムをJavaで実装してみました。 Color Coherence Vectorを実装してみた 詳しい説明はあちらを見てもらうとして、前処理をした画像はこんな感じ 結果はこんな感じ。ここでは、横を200ドットに制限して、20ドットを閾値にαとβを計算してます。 0 ( 33, 123) 1 ( 2, 110) 4 ( 0, 17) 5 ( 12, 78) 16 ( 2, 64) 17 ( 0, 3) 20 ( 11, 52) 21 ( 44, 236) 22 ( 7, 200) 25 ( 0, 3) 26 ( 10, 184) 37 ( 0, 14) 38 ( 0, 26) 41 ( 0, 3) 42 ( 50, 211) 43 ( 14, 80) 46 ( 0, 1) 47 ( 6, 68) 58 ( 0, 18) 59 ( 0, 28) 62 ( 0, 5)

    toruto
    toruto 2008/10/07
    Color Coherence VectorをJavaで実装してみた
  • Zinniaの多クラス分類法 - 射撃しつつ前転 改

    ZinniaというSVMベースの新しい手書き文字認識エンジンがリリースされたので、早速ソースコードを少し読んでみた。 文字認識というのは、機械学習では多クラス分類という問題に分類される。しかもクラス数が認識したい文字数(数千文字程度だろう)分だけ存在するという、なかなか計算量的に厳しい問題である。二値分類器を使って多値分類器を構成する方法にはone vs rest, one vs one, その他にもいろいろあるらしいが、その中のどれを使っているのかというところに興味があった。Webによると、50〜100文字/秒の認識速度と書いてあったので、コードを読む前の予測としては、one vs oneかなーと思っていた。(速度的にはone vs oneの方がone vs restより速い。) しかし、そんな予想を裏切り、recognizer.cppの148行めあたりからには以下のようなコードが書いて

    Zinniaの多クラス分類法 - 射撃しつつ前転 改
  • やる夫で学ぶSVM with R

    17. SVM とは Support Vector Machine の略称です。 データ群を 2 クラスに分類する超平 面を引くことによってデータを分類 してしまおう という手法です。 具体例を挙げてみましょう。

    やる夫で学ぶSVM with R
  • きまぐれ日記: Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン

    オンライン手書き文字認識エンジンZinniaを公開しました。 http://zinnia.sourceforge.net/index-ja.html Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 2年前に、Ajax手書き文字認識と言うものを作ったのですが、その認識エンジンをスクラッチからポータブルでつ

  • OpenCV 画像、写真認識、検出、メモ帳 - PGのWiki

    PGのWiki 雑多なメモ集 トップページページ一覧メンバー編集 OpenCV 画像、写真認識、検出、メモ帳 最終更新: hama1010 2008年02月28日(木) 16:40:41履歴 Tweet OpenCV 画像 認識 写真 検出 ロゴ ロゴからポジティブサンプル作成 参考サイト 九大 OpenCVでのロゴ認識詳しい解説 http://lab.cntl.kyutech.ac.jp/~kobalab/nishida/ope... blog 画像認識実験結果 http://ugd555.blog1.fc2.com/blog-category-30.html 解説pdfファイル英語 http://lab.cntl.kyutech.ac.jp/~kobalab/nishida/ope... OpenCV全般の解説 http://chihara.naist.jp/people/2004/k

    OpenCV 画像、写真認識、検出、メモ帳 - PGのWiki
  • manual - 機械学習勉強会Wiki

    はじめに † 機械学習テンプレートライブラリは,自然言語処理へ機械学習を応用する研究や,より自然言語処理に適した機械学習手法の開発を容易にするための C++ テンプレートライブラリです.特に,系列構造や木構造など,自然言語の構造を表現するのに適した構造に対して,様々な機械学習アルゴリズムを利用できるように設計されています. 設計の特徴として,データ構造を表すクラスと学習アルゴリズムを表すテンプレートクラスを分離し,これらの間をつなぐインタフェースを設定することで,汎用性を高めています.これにより,新たにデータ構造クラスを作成した場合に様々な学習アルゴリズムとの組み合わせを容易に試すことができ,逆に,新たな学習アルゴリズムを実装した場合には様々なデータ構造との組み合わせを試すことができます. 現在のところ,以下のデータ構造が実装されています. 多クラス分類 ― 文書分類,関係抽出など 可変候

  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • ちょwww - 元データ分析の会社で働いていた人の四方山話

    めちゃめちゃ興味あるんですけど http://bioinfo.is.ocha.ac.jp/poster-kokai-seminar/15th-bio-shotai.pdf とおすぐる>< まあ少しまじめな話をすると、 Support Vector Machine を代表とするKernel-based Machine Learning では、アプリケーションを特徴付けるカーネル関数をうまく設計することが成否の鍵となる。カーネル関数は半正定値という数学的性質により定義されており、その性質を満足するようにカーネル関数を設計することは意外に易しくはない。 前半はまさに正しくて非線形な処理を行うには、SVMをはじめとしてカーネルはきってもきりはなせない。 でも後半の部分もカーネルの説明をするときには良く言われることだけど、最近少し気になることを聞いた。 データの性質に合うカーネル関数を「うまく設計」

    ちょwww - 元データ分析の会社で働いていた人の四方山話
    toruto
    toruto 2008/07/16
    データの性質に合うカーネル関数を「うまく設計」することができるってことは、データの構造がある程度分かっているってことで、それなら計算コストの高い機械学習じゃなくてもよくね?って意見があるらしい。
  • [機械学習]サポートベクターマシンの本 - 2008-07-15 - きしだのはてな

    うちにあるで、サポートベクターマシン(SVM)について書いてあるをあげてみます。 まずは、これ。機械学習ってなんなの?という人におすすめ。パーセプトロンからSVM、ニューラルネットワークときて、そうやってできた学習機械の評価方法についても書いてあります。 フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/01メディア: 単行(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (39件) を見る SVM・カーネルに関しては記述が軽く、これも機械学習の入門書。けど、学習機械を組み合わせるブースティングなどの話が書いてある。 パターン認識と学習の統計学―新しい概念と手法 (統計科学のフロンティア 6) 作者: 甘利俊一,麻生英樹,津田宏治,村田昇出版社/メーカー

  • アニメ顔の検出とキャラクターの分類 - デー

    時間がないくせにアレコレしていて、もうなにをしたかったのかしているのかわけ分からなくなってきたけど、まだ大きな目線で見ると方向性は間違ってないと思う。最近は画像から矩形を超高速に切り抜きまくるためのツールを作っていて、その用途が検出器を作るための良質のサンプルデータ集めの効率化で、作りながら、そういえば顔判定はよく見るけど、アニメ顔判定は見ないなーと思っていたところに『http://techon.nikkeibp.co.jp/article/NEWS/20080325/149419/:title=』というニュースを見て、これはまずい先を越されてしまう、コンテンツベースのサイト分類器を作ってニートになるのは俺だ! と思って、いますぐアニメ画像の判定をしてみようと思い始めた。 考えた判定の方法は、 アニメ顔検出 顔の位置から他の部位の座標を大体求める 髪の色と服の模様(ヒストグラムを使う)でキ

    アニメ顔の検出とキャラクターの分類 - デー
  • 意見分析エンジン―計算言語学と社会学の接点 - public static void main

    意見分析エンジン―計算言語学と社会学の接点posted with amazlet at 09.02.19大塚 裕子 乾 孝司 奥村 学 コロナ社 売り上げランキング: 46467 Amazon.co.jp で詳細を見る 意見分析エンジンというと真っ先に思いつくのが、今はもう終了してしまったブログウォッチャーやgooブログ検索やYahooブログ検索などの、ポジティブ・ネガティブな記事の割合やどのようなキーワードでそう判断したのかといった情報を表示してくれる機能です。 アンケートなどの自由作文などで自動的に意見抽出しようという試みは結構前からありましたが、感想や意見が多く書き込まれるブログの普及に伴って、研究・ビジネスの両方で一気に注目が高まっています。ただ、Webで提供されているレベルだと一部を除いて、すごく高度なことをしてるわけでもないので、どのくらい実用で使えるのかは疑問ですが、逆に少し

    意見分析エンジン―計算言語学と社会学の接点 - public static void main
  • Machine Learning in Automated Text Categorization(ACMCS02.pdf)