[B! algorithm][機械学習] torutoのブックマーク

toruto id:toruto

algorithmと機械学習に関するtorutoのブックマーク (23)

Web本文抽出 using crf
2009-03-22 @Kansai.pm HTML::ExtractContent (Perl) の話。 http://search.cpan.org/dist/HTML-ExtractContent/lib/HTML/ExtractContent.pm
toruto 2010/10/14
algorithm

ruby

機械学習
リンク
機械学習 × MapReduce - ny23の日記
個人的な興味というより，雑用絡みで眺めた論文の紹介．機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ．全然網羅的ではないけど，誰かの役に立つかも知れないので，幾つかメモしておく．まず古典的にはこれ， Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム（バッチ学習）の多くは，Statistical Query Model で記述できて，それらは summation form で記述できる (から，MapReduce で並列化できる)．実装は Mahout．ただ最近は，バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて，バッチアルゴリズムを並列化することのメリットはあまり無い．オンラインアルゴリズムだとパラメタが連続的に更新されるので，MapR
toruto 2010/10/09
機械学習

algorithm

hadoop
リンク
Google Prediction API - Google Code
How do I start? Learn more about Google Prediction API. Request access. Try out the sample code. What is the Google Prediction API? The Prediction API enables access to Google's machine learning algorithms to analyze your historic data and predict likely future outcomes. Upload your data to Google Storage for Developers, then use the Prediction API to make real-time decisions in your applications.
toruto 2010/05/20
面白そう

Google

algorithm

機械学習
リンク
Better Bayesian Filtering　ベイジアンフィルタの改善
ベイジアンフィルタの改善 --- Better Bayesian Filtering Paul Graham, January 2003 これは、Paul Graham： Better Bayesian Filtering を、原著者の許可を得て翻訳・公開するものです。 <版権表示> 本和訳テキストの複製、変更、再配布は、この版権表示を残す限り、自由に行って結構です。 (「この版権表示」には上の文も含まれます。すなわち、再配布を禁止してはいけません)。 Copyright 2002 by Paul Graham 原文: http://www.paulgraham.com/better.html 日本語訳：Shiro Kawai (shiro ＠ acm.org) <版権表示終り> Paul Graham氏のエッセイをまとめた『ハッカーと画家』の邦訳版が出版されました。出版社の案内ページ
toruto 2010/04/30
algorithm

bayes

自然言語処理

機械学習
リンク
強化学習とは？(What is Reinforcement Learning?)
強化学習の概要，応用上の利点，適用例，基礎理論，代表的手法，応用に必要な技術などの説明。本ページの記述は下記の解説記事をもとにWEB用に修正したものである：木村元，宮崎和光，小林重信：強化学習システムの設計指針，計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第１章：強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること第２章：強化学習の適用例：ロボットの歩行動作獲得第３章：強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc
toruto 2010/01/27
algorithm

機械学習
リンク
PFIセミナー資料: 研究開発2009 - DO++
昨日ありました、PFIでのセミナーでの発表資料です。研究開発のチームの紹介の後に、2009年サーベイした論文の中で面白かった論文を機械学習、データ構造、画像処理で紹介してます紹介した話は - Multi-class CW (Multi-class Confidence Weighted Learning,) - AROW (Adaptive Regularization Of Weight Vector) - Online-EM algorithm - 全備簡潔木 (Fully-functional Succinct Tree) - 圧縮連想配列 (compressed function) - PatchMatch です。＃資料中の簡潔木の表現方法のDFUDSの紹介でtxも使用と書いてあるのは、公開しているtxでは、 LOUDSのみをつかっていますので正確ではありませんでした。これ
toruto 2009/12/26
画像処理

機械学習

algorithm

資料

論文

study
リンク
[機械学習] トピックモデル関係の論文メモ - tsubosakaの日記
最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。 (追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Document Collections (KDD 2009) 論文の話は2つあって一つ目がSparseLDAというCollapsed Gibbs samplerの省メモリかつ高速な方法の提案と2つ目はオンラインで文章が入力されるような場合において訓練データと新規データをどう使うかという戦略について述べて実験している。 Collapsed Gibbs samplerを高速化しようという論文はPorteous et al.(KDD 2008)でも述べられているけどそれよりも2倍ぐらい高速(通
toruto 2009/12/24
機械学習

algorithm

study
リンク
トーナメントと多値分類 - DO++
今やってる研究で、トーナメント問題を調べる機会がありました。トーナメントは私も知らなかったのですが、勝者や順位を決める方式のことを指し、いわゆる二人ずつ戦って生き残っていく方式はノックアウトトーナメントといわれるそうです(wikipedia)。＃10000人戦う時にノックアウトトーナメントでは何回試合が行われるかというのはよくある質問ですね。で、このトーナメント方式というのは調べてみると非常に様々なものがあります例えばスイス式トーナメントは、最初はランダムな組み合わせで対戦、次は勝者同士と敗者同士、その次は全勝・１勝１敗・２戦全敗のそれぞれが・・というふうに同じ成績の人同士で戦う方式です。レーティングを計算して、レーティングが近いもの同士を戦わせるような拡張もあります。近いのは将棋でやってるようなものですね。利点は全ての人が同じ試合数で戦い、また厳密な順位が決めやすいことがありま
toruto 2009/12/07
algorithm

機械学習
リンク
My Bookmark: Machine Learning
私のブックマーク学習 1. はじめに機械学習の研究は飛躍的な進歩を遂げ、専門化が進んでいる。元々は人間の学習能力を目標に始められた研究分野だが、それどころではなくなってきたようで、全体を一望するのが困難になってきた。しかも、機械学習の一分野である帰納論理プログラミングについて、理科大の溝口文雄教授によるブックマークが昨年9月号で取り上げられていて、機械学習全体をカバーする有力サイトも紹介済だったりする。そこで、大規模で便利なサイトに筆者がたまたま訪れたサイトを織り交ぜながら、紹介したい。また、このコラムで紹介済のブックマークは省くか、違った説明を試みるので、バックナンバーも合わせて参照されたい。 2. ポータルサイト機械学習について調べ物をするとき、とりあえずなんでもそろっているポータルサイトとしては、MLnet(Machine Learning network, http://ww
toruto 2009/10/18
algorithm

機械学習

資料
リンク
（9月〜最近分） - デー
5月くらいにやるよって書いて、ずっと進んでなかったけど、少し前の連休でgaーと進めた。今ちょっと仕事がアレなのでデモサイトを作る余裕がないけど、その2としては余裕できたら置きますってところまではできてます。今回の内容は、前回ので候補を絞って、それに対してBag of visual-wordsの類似でソートして上位N件を表示するという方法。アニメ顔に特化させるための前処理など特徴ベクトルを作るまでの過程がたくさんあるけど、そのあたりの説明はデモサイトを作ってから。とりあえずスクショ。検索対象は4chan /c/という画像掲示板に投稿された画像からImager::AnimeFaceを使って自動で切り取った顔画像4万件。old verが前回の部品の色によるもので、new verが今回の。正直まだまだだけど、上位の本人率が上がった本人ではないなりに「髪形はちょっと似てる」「前髪のみ激似」
toruto 2009/10/18
algorithm

画像処理

機械学習
リンク
テキストからの評判分析と機械学習
テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン
toruto 2009/05/20
機械学習

search

資料

説明

自然言語処理

algorithm
リンク
http://sugiyama-www.cs.titech.ac.jp/~sugi/2008/NECsoft-MachineLearning-jp.html
toruto 2009/04/19
algorithm

機械学習

資料
リンク
オンラインEMアルゴリズム - DO++
EMアルゴリズム（Expectation Maximizationアルゴリズム、期待値最大化法、以下EMと呼ぶ）は、データに観測できない隠れ変数（潜在変数）がある場合のパラメータ推定を行う時に有用な手法である。 EMは何それという人のために簡単な説明を下の方に書いたので読んでみてください。 EMのきちんとした説明なら持橋さんによる解説「自然言語処理のための変分ベイズ法」や「計算統計 I―確率計算の新しい手法統計科学のフロンティア 11」が丁寧でわかりやすい。 EMは教師無学習では中心的な手法であり、何か観測できない変数を含めた確率モデルを作ってその確率モデルの尤度を最大化するという枠組みで、観測できなかった変数はなんだったのかを推定する場合に用いられる。例えば自然言語処理に限っていえば文書や単語クラスタリングから、文法推定、形態素解析、機械翻訳における単語アライメントなどで使われる。
toruto 2009/04/17
algorithm

機械学習

search
リンク
HITS, 主成分分析, SVD - naoyaのはてなダイアリー
ウェブグラフのリンク解析によるページの評価と言えば PageRank が著名ですが、もうひとつ Jon Kleinberg による HITS (Hyperlink-induced topic search)も有名です。最初の論文 Authoritative Sources in a Hyperlinked Environment は 1999年です。IIR の 21章で、この PageRank と HITS についての解説がありました。 HITS HITS はウェブページの評価に二つの軸を用います。一つが authority スコア、もう一つが hub スコアです。例えば「Perl の情報が欲しい」という検索要求に対しては CPAN や開発者である Larry Wall のホームページなどが重要度の高いページかと思います。これらのページは「Perl に関して信頼できる情報源」ということ
toruto 2009/03/13
algorithm

search

機械学習

資料
リンク
mloss | All entries
Alpenglow 1.0.6 About: A recommender systems research framework aimed at modeling non-stationary environments. Changes: Initial Announcement on mloss.org.
toruto 2009/02/14
algorithm

programming

機械学習
リンク
自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非
toruto 2009/01/26
algorithm

機械学習

自然言語処理

読み物
リンク
はてなブログ | 無料ブログを作成しよう
京都市の美味しいパティスリーを紹介したい前編（北側エリア）こんばんはぁ、ぺのぽすです京都大学に入学してそろそろ4年目、趣味のパティスリー巡りをしてて気づいたことがあります。京都市のパティスリー、レベル高すぎ！！京都市はホントどこに行ってもで～～ら美味しいパティスリーがあり大体の観光、ご飯のついでに激ウマ…
toruto 2008/12/17
クラスタ数が自動的に求まるのは便利です。 K-meansのように乱数で初期値を決めたりしないので、何度やっても同じ結果が得られます。

clustering

algorithm

c++

programming

機械学習
リンク
しかしSVMも最近は速いらしい - 射撃しつつ前転改
Complement Naive BayesがSVMより速いよーと主張していたので、SVMもなんか最近は速くなってるらしいよ、という事を紹介してみたい。近年はSVMなどの学習を高速に行うという提案が行われており、実装が公開されているものもある。その中の一つにliblinearという機械学習ライブラリがある。ライブラリ名から推測できる通り、liblinearではカーネルを使うことが出来ない。しかし、その分速度が速く、大規模データに適用できるという利点がある。 liblinearを作っているのはlibsvmと同じ研究グループで、Chih-Jen Linがプロジェクトリーダーであるようだ。libsvmはかなり有名なライブラリで、liblinearにはそういった意味で安心感がある。（liblinearの方は公開されてしばらくは割とバグがあったらしいけど。） liblinearにはL1-SVM, L
toruto 2008/12/17
svmも速くなったんだぜ!!!という話

機械学習

svm

algorithm
リンク
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
toruto 2008/12/17
わかりやすい

algorithm

bayes

hatena

読み物

資料

説明

機械学習
リンク
はてなブログ | 無料ブログを作成しよう
2024年下半期のフィルム写真たちふと気がつくと2024年も残り僅か。そしてふと振り返るとこのブログに掲載する写真がGRIIIで撮ったものばかりになっていたのだけど、決してフィルムに飽きたということではなく、フィルムはフィルムで淡々と撮り続けているし、モノクロもカラーネガもいつも通り自宅で…
toruto 2008/12/07
clustering

algorithm

gps

画像処理

機械学習

c++

programming
リンク
1 2 次のページ