TohgorohMatsuiのブックマーク - はてなブックマーク

機械学習界隈の情報収集方法 - kisa12012の日記

こんにちは．Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します，[twitter:@kisa12012]です．普段は博士学生として，各地を放浪しながら機械学習の研究をしてます．今回の記事はボストンで執筆しています．現地時間(EST)での締切は守ったのでセーフ…ですよね？本日は機械学習の技術的な内容の話ではなく，筆者が実践している機械学習関連の情報収集方法について纏めます*1．大きく分けて，学会情報の管理・論文情報の収集・その他の三種について述べたいと思います．今回のトピックの多くは他の分野にも通用する話になっているかと思います．他の分野の方がどのように情報収集されているのかも気になるところです．学会情報の管理まずは学会情報の管理についてです．機械学習に関連するカンファレンスは（特に近年乱立気味で）非常に沢山あります．全てをチ

TohgorohMatsui 2013/12/17

リンク

確率的勾配降下法+α の話をしました - kisa12012の日記

先日PFIセミナーにて，「SGD+α: 確率的勾配降下法の現在と未来」というタイトルで発表をしました！発表の機会を設定して頂いたPFIの皆様，ありがとうございます．スライドは以下になります． SGD+α: 確率的勾配降下法の現在と未来 from Hidekazu Oiwa 確率的勾配降下法(SGD)はシンプルで大規模データから”そこそこの”解を得るには非常に有効なアルゴリズムです．一度自分で実装してSGDを回してみたことのある人も多いと思います．一方で結局ステップ幅の設定が大変正規化とか前処理しないとそれほど上手く動いてくれないなどなどSGDには欠点も多く，たくさんの人が使う際に苦しめられてきた現実もあるのではないでしょうか．今回の発表では，SGDの欠点を克服するため，およびさらなる長所を加えるための，最新の+α拡張研究について紹介しました．内容は，ステップ幅設定に今後悩まさ

TohgorohMatsui 2013/10/18

機械学習

リンク

研究の参考にしているサイト集 - kisa12012の日記

自分のメモ書きとして，たびたび論文執筆やプレゼン時に参考にしているサイトを以下にまとめてみました．自身の研究分野である，コンピュータサイエンスや人工知能分野に関連する資料が多めです．他に参考となる有用なサイトをご存知の方がいらっしゃれば，コメント等で教えて頂けると筆者が喜びます！ English Check Manual 東大，牧島先生の作成した英字論文執筆／校正のためのチェックマニュアル．英字論文を書く際に，（特に日本人が）誤りやすい文法や単語を修正例とともに示したもの．自分が英文を書く時はもちろん，校正時もこのチェックマニュアルに従って，誤り箇所に番号を振る形で修正しています．英語論文の書き方東大，松尾先生の作成した英語論文の作成マニュアル．論文の完成度を高めるために何をすれば良いか，論文執筆の全体像・心構え・Tips集等盛り沢山毎回新しい論文を書くたび，参拝する気持ち

TohgorohMatsui 2013/03/22

リンク

ICML2012読み会で発表しました && SVMの性能をガタ落ちさせるためには - kisa12012の日記

本日サイボウズラボさんの会場で開催されたICML2012読み会に発表者として参加しました．主催者のnokunoさん，会場係のshuyoさん，また参加者の皆様，ありがとうございました！非常に勉強になりました．今回発表したのは，Poisoning Attacks against Support Vector Machines (Biggio+) です．発表資料 PoisoningAttackSVM (ICMLreading2012) from Hidekazu Oiwa 元論文 http://icml.cc/2012/papers/880.pdf 概要論文の名前通り，SVMの訓練データに毒を盛るためのアルゴリズムを提案毒を盛るとは，すでに学習されたSVMのパフォーマンスを劇的に下げるためのデータを生成して，SVMの新たな教師データとして潜り込ませること手書き文字認識での実験では，た

TohgorohMatsui 2012/07/30

機械学習

リンク

Exact Soft Confidence-Weighted Learning (ICML2012) 読んだ - kisa12012の日記

概要オンラインでの分類学習の世界では，CWが非常に強力なアルゴリズムとして注目されています．特に，その圧倒的な分類精度及び収束速度は圧巻の一言であり，自然言語処理を中心に様々な分野で応用例や派生アルゴリズムが提案されています*1．一方で，ノイズデータのが混入していた場合に精度がガタ落ちする性質がCWの重大な欠点として多くの人から指摘されていました．ノイズが予め取り除かれている実験設定ならば良いのですが，ノイズが含まれている可能性の高い実データにはCWは中々不便．この問題を解決するため，ノイズ耐性の強いCW系アルゴリズムの決定版（？）として，SCW (Soft Confidence-Weighted)アルゴリズムがICML2012という会議で提案されました．本エントリでは，SCWの紹介を行います． Exact Soft Confidence-Weighted Learning, Wang

TohgorohMatsui 2012/06/25

機械学習

リンク

能動学習入門的な話をしました - kisa12012の日記

修論の原稿提出と国際学会の論文締切が１日違いなため，両方の作業を同時で進める日々を送っております今日この頃，皆様いかがお過ごしでしょうか．今回は，先日PFIセミナーにて発表しました能動学習入門的な話の補足を少し述べたいと思います．（レイアウトが崩れている場合，スライドをダウンロードしてから開くと治る可能性が高いです．）能動学習セミナー View more presentations from PFI Marketing 発表のUstream 能動学習能動学習とは，教師データを作成する際に最大の効果を発揮するように教師とするデータを選択する方法についての研究分野であり，機械学習の一分野です．一般的にデータに正解を振るのは高いコストが要求されるため，どのデータに正解ラベルを付与すればより高精度な学習器が作成出来るか，を知る事が出来ればラベル付けのコストが格段に低減できます．基本的な枠組

TohgorohMatsui 2012/01/11

機械学習

リンク

NIPS2011気になった論文リスト - kisa12012の日記

NIPS2011のAccepted Papersが公開されました。（まだタイトルのみですが） http://nips.cc/Conferences/2011/Program/accepted-papers.php いつもどおり、備忘録です。 Active Learning, Crowd, Submodular, Manifoldといったキーワードが流行しているように見えます。まだタイトルを眺めただけですが、NIPSは良い論文が多いですね…。 A Collaborative Mechanism for Crowdsourcing Prediction Probl ems J. Abernethy, R. Frongillo A Convergence Analysis of Log-Linear Training S. Wiesler, H. Ney Active Classificatio

TohgorohMatsui 2011/09/28

機械学習

リンク

ECML/PKDD2011気になった論文リスト - kisa12012の日記

自分用メモ．当日，チェックしておきたいAccepted Papersを以下に纏めておきます．ペーパーが公開されているものは，アブストをナナメ読みした感想を簡単に書いています． Frequency-aware Truncated methods for Sparse Online Learning Hidekazu Oiwa, Shin Matsushima, Hiroshi Nakagawa 手前味噌ですが，自分達の論文． Active learning with evolving streaming data Indrė Žliobaitė, Albert Bifet, Bernhard Pfahringer, Geoff Holmes ストリームデータ環境での能動学習． Manifold Coarse Graining for Online Semi-Supervised Lear

TohgorohMatsui 2011/08/23

リンク

PRankを実装しました - kisa12012の日記

ランキング学習の一手法であるPRankを実装しました． PRankはPerceptronに似たアルゴリズムであり，実装も非常に簡単です．ソースコード github 解説ランキング学習及びPRankの解説は，先日のDSIRNLPで発表された以下の記事が詳しいです． DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ PRankは，1文書の特徴量と対応するランク情報のみを用いてパラメータ更新を行うPointwise手法の一種です． (2文書のペアを用いてパラメータ更新を行うのがPairwise，1つのクエリに対するランキング情報を全て用いてパラメータ更新を行うのがListwise手法) PRankでは，重みベクトルとランキング順位数と同じ数のしきい値を用意し，重みベクトルと特徴ベクトルとの内積の値を初めて超えるしきい値の番号を予測値として出力します．

TohgorohMatsui 2011/08/06

機械学習

リンク

デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記

Twitterにおけるデマ検出手法を論じた研究が，ついにEM NLP2011に出てきたので紹介します．論文：Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011] Twitter上のデマに関する興味深い統計情報も幾つか含まれているので，興味のある方は一読されると良いかと思います．概要噂と噂に関連するツイートを検出すると同時に，その噂の信頼度を推定様々な特徴量を用いて実験ツイートの文面を使って分類器を作るだけで，高い精度が実現可能！ただし，アノテートされたツイートを教師データとして使用背景マイクロブログ上で噂は急速に広まるデマや誤情報は，企業にとって大きな障害となりうるので自動で特定したいこの研究では，以下の手順でデマや誤情報を検出する特定の噂に関して言及しているツイート

TohgorohMatsui 2011/08/03

リンク

クラウドソーシング時代の能動学習 - kisa12012の日記

例によって，ICML2011からActive Learning from Crowdsのメモ書きです．クラウドと銘打ってはいますが，結局のところ複数アノテーターがいるときにどのように能動学習を行うとよいか，という手法提案の論文になっています．概要アノテーターが複数いる場合の能動学習手法の提案ラベル付けしたいデータに関して，一番信頼できるアノテーターのラベル付け情報を信頼するただ単に多数決を取るよりも高い精度を達成能動学習 (Active Learning) 今までラベル付けしたデータから学習器を生成上手く分類出来ないデータ（今後の学習に一番有効なデータ）を選び，アノテーターによるラベル付け上記の操作を繰り返す複数アノテーター多くの教師あり学習では，一人のアノテーターがラベル付けすることを暗に仮定この仮定は本当に正しいか？近年は，多くのあのテーターが同時にラベル付けす

TohgorohMatsui 2011/07/03

機械学習

リンク

劣勾配法(ヒンジ損失）書いたよ - kisa12012の日記

ソースコードソースコード内容劣勾配法の解説は，以下のブログ記事が詳しいです．劣微分を用いた最適化手法について(3) | Preferred Research こちらでも劣勾配法について簡単に説明したいと思います．多クラス分類問題を解く場合，ヒンジ損失関数は以下の式で定義することが出来ます．ここで，が現在の重みベクトル，が入力ベクトル，が正解ラベルです．ヒンジ損失関数では，正解ラベルのスコアと不正解ラベルのうち一番高いスコアとの差が重要な役割を果たします．このように定義したヒンジ損失関数を用いて，劣勾配法はデータが1つ与えられるたびに以下の更新式に従い重みベクトルを更新します．ここで，は，毎回の更新時にどの程度重みベクトルを動かすかを調節するステップ幅です．多くの場合，ステップ幅はとなる値を用います．[Zinkevich, 2003] 以上が劣勾配法（ヒンジ損失関数）のア

TohgorohMatsui 2011/07/01

機械学習

リンク

ドメイン適応を用いた評判分析手法 - kisa12012の日記

ICML2011のドメイン適応の論文のメモ書き．数式番号が1つも使われていない，珍しい論文． Domain Adaptation for Large-Scale Sentiment Classification: A Deep Learning Approach 概要評判分析，評判抽出のためのドメイン適応手法の提案 Deep Learningというアプローチを採用特徴の上位概念（製品の質，コストパフォーマンス等）を学習する大規模データ解析，大量のドメイン適応を同時に行うことが可能 Domain Adaptation あるドメインで学習した結果を，その他のドメインでの学習にも利用する手法様々なドメインで学習をしたいが，各ドメインで別々に学習を行う場合，以下の問題点がある全ドメインに対して教師データを作るのは困難ドメイン間で知識を共有できない Deep Learning 特徴の階層

TohgorohMatsui 2011/07/01

機械学習

リンク

分散型オンライン学習 - kisa12012の日記

ICML2011のOptimal Distributed Online Predictionをざっくりと読んだので，メモ書き．論文概要既存のオンライン学習アルゴリズムをミニバッチに拡張，分散学習を可能にする勾配ベースのオンライン学習手法は全て拡張可能勾配ベースのオンライン学習手法 : Dual-Averaging, Mirror descent algorithms (Subgradient method)等 Regret Boundは (m:データ数)で分散数kに依存せず，凸制約の上では理論上最適解確率的最適化の文脈から，分散型のアルゴリズムを提案しているとも見ることが可能実験により，ノードの数の増加に応じて収束速度が向上することが示された distributed mini-batch framework(DMB)とは？ k個の学習器にそれぞれ別のデータを食わせて勾配を計算

TohgorohMatsui 2011/06/30

機械学習

リンク

Passive-Aggressive書いたよ - kisa12012の日記

ソースソースコード内容 Passive-Aggressiveの概要・説明については，先日のオンライン学習による線形識別器のスライドをご覧ください． http://d.hatena.ne.jp/kisa12012/20110625/1309003409 実験結果 NaiveBayes, Perceptronとの比較は以下． NaiveBayes accuracy : 9800 / 10000 Perceptron(1 iteration) accuracy : 9725 / 10000 Passive-Aggressive(1 iteration) accuracy : 9738 / 10000 PA-I (1 iteration, C=0.001) accuracy : 9787 / 10000 PA-II(1 iteration, C=0.001) accuracy : 9789 /

TohgorohMatsui 2011/06/29

機械学習

リンク

Perceptron書いたよ - kisa12012の日記

ソースソースコード内容 Perceptronの概要・説明については，先日のオンライン学習による線形識別器のスライドをご覧ください． http://d.hatena.ne.jp/kisa12012/20110625/1309003409 実験結果 NaiveBayesと比較すると，以下のようになりました． NaiveBayes accuracy : 9800 / 10000 Perceptron(1 iteration) accuracy : 9725 / 10000という結果になりました．（データセットは，データセット生成コードで自動生成生成したもの）学習速度はパーセプトロンの方が圧倒的に早いので，これも一長一短ですね．（用いるデータセットによって違うでしょうが…）

TohgorohMatsui 2011/06/29

機械学習

リンク

Bandit Feedback下での多クラス分類アルゴリズム - kisa12012の日記

ICML2011のMulticlass Classification with Bandit Feedback using Adaptive Regularizationをざっくりと読んだのでメモ．論文概要 Bandit Feedbackでの多クラス分類問題における新たなアルゴリズムを提案アルゴリズムは，Second-order Perceptronとupper-confidence boundを組み合わせたもの exploration時に現在のスコアや不確実性を考慮したものに拡張した点がポイント Regret を達成 (既存手法のベストは，) 但し，データ分布には一定の確率分布に従う，という仮定を置いている実験結果より，Label Noise環境下での分類精度が向上することを確認 (Bandit Feedbackと似ているため) Bandit Feedback Bandit Fe

TohgorohMatsui 2011/06/28

機械学習

リンク

オンライン学習による線形識別器 - kisa12012の日記

オンライン学習による線形識別器(Online Linear Classifiers ~PerceptronからCWまで~)というタイトルで研究室内の勉強会発表を行いました．勉強会で使用したスライドを以下に公開します． (スライドが表示されない場合は，一度リロードを行うと表示されるようになる場合があります．）スライド OnlineClassifiers View more presentations from Hidekazu Oiwa. 内容概説本スライドの構成は以下の通りです．線形識別器とオンライン学習の定義，特性の説明 Perceptron MIRA / Passive-Aggressive Confidence-Weighted Algorithms 各アルゴリズムについて，アルゴリズム概要・理論保証・その後の発展に焦点を当てて解説しています．内容のちょっとした補足上のス

TohgorohMatsui 2011/06/26

機械学習

リンク

ICML2011気になった論文リスト - kisa12012の日記

ICML2011のAccepted paperが公開されています． http://www.icml-2011.org/papers.php 個人的に気になった（あとで読みたい）論文リストを以下にまとめていきます．オンライン学習，多クラス分類問題，スパース化，転移学習系の論文が多めです． Efficient Sparse Modeling with Automatic Feature Grouping (Wenliang Zhong, James Kwok) ノルムとノルムを組み合わせたsparse modeling手法であるOSCARのソルバー提案．計算量をからに改善． d:特徴次元数 http://www.icml-2011.org/papers/9_icmlpaper.pdf On tracking portfolios with certainty equivalents on

TohgorohMatsui 2011/05/29

機械学習

リンク

Complement NaiveBayesを実装したよ - kisa12012の日記

レッドブルとカレーが美味しい季節になりました．前回，ナイーブベイズを実装した後，「どうせならComplement NaiveBayesも実装してしまいなよ．」という天からの声が聞こえた気がしたので，実装してみました． Complement NaiveBayesとはなんぞや，という方は，以下の記事で非常に丁寧に解説されているので，そちらを参照ください．こちらでも簡単に説明すると，Complement NaiveBayesはそのクラスに「属しない」記事を用いて，文書に対する尤度を計算します．そして，尤度が一番「低い」クラスを予測結果として出す手法です．NaiveBayesと反対ですね．その性質上，2クラスの場合はNaiveBayesとComplement NaiveBayesは結果が一致します．新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ

TohgorohMatsui 2011/05/21

機械学習

リンク

はてなブックマーク

タグ

ブックマーク / kisa12012.hatenadiary.org (23)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス