yowaのブックマーク - はてなブックマーク

オンライン最適化とRegret最小化 - DO++

大量のデータから、何か有益な情報を求める問題の多くは最適化問題を解くことに帰着されます．最適化問題とは与えられた関数fの値を最小（最大）にするような変数xを探すといった問題です。例えば、機械学習（これを利用する自然言語処理、情報検索など）、画像処理、AI(ロボットの経路制御）、など多くの分野で最適化問題は登場します。その中でもオンライン最適化（機械学習の文脈でいえばオンライン学習）と呼ばれる最適化手法は実用性の高さと実装のしやすさから多く利用されるようになってきました。このオンライン最適化は近年Regret（後悔）最小化というゲーム理論などで使われていた枠組みで解析されることが多くなってきました。今回はこのRegret最小化について簡単に解説してみようと思います。（機械学習が詳しい人向けに補足すると、VC次元など他の機械学習を解析する手法と比べてRegret最適化の面白い

yowa 2010/11/10

Algorithm

リンク

PFIセミナー資料: 研究開発2009 - DO++

昨日ありました、PFIでのセミナーでの発表資料です。研究開発のチームの紹介の後に、2009年サーベイした論文の中で面白かった論文を機械学習、データ構造、画像処理で紹介してます紹介した話は - Multi-class CW (Multi-class Confidence Weighted Learning,) - AROW (Adaptive Regularization Of Weight Vector) - Online-EM algorithm - 全備簡潔木 (Fully-functional Succinct Tree) - 圧縮連想配列 (compressed function) - PatchMatch です。＃資料中の簡潔木の表現方法のDFUDSの紹介でtxも使用と書いてあるのは、公開しているtxでは、 LOUDSのみをつかっていますので正確ではありませんでした。これ

yowa 2009/12/26

Algorithm

リンク

天気予報から機械学習、金融工学まで - DO++

もう随分経ちますが，先日CompView秋の学校というのに行き，2泊3日みっちり機会学習を勉強してきました．講師陣は豪華でどの話も面白かったのですが特にElad Hazanによる"Prediction in the dark: the multi-armed bandit probl em"が非常に面白かったです．その話を説明するために，まず簡単ながら驚くべき性能を達成するアルゴリズムを紹介しましょう．解きたい問題は，毎日，次の日の天気が晴れか雨かを予想する問題です．t日目が晴れの場合 y(t)=1, 雨の場合 y(t)=0と表すことにしましょう．t日目にy(t+1)を予想するわけです．さて、自分は天気の専門家ではないので，自分で予報せずに，専門家に頼ることにしてみます．M人の天気予報士がいて，それぞれが独自に次の日の天気を予想しています．i人目の天気予報士のt日目の予報をp(i,t)

yowa 2009/10/26

Algorithm

リンク

ohmm（オンラインEMによるHMM学習）をリリースしました - DO++

Ohmm-0.01をリリースしました [Ohmm 日本語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。使う場合は、単語（アクセス履歴とかなんでもよい）に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報（ＤＮＡ）といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。本ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法（スケーリング、スパースな期待値情報の管理）もいれているので、そこそこ高速に動きます速度的には100万語、隠れ状

yowa 2009/05/20

リンク

DO++: 機械学習による自然言語処理チュートリアル

自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

yowa 2008/08/04

言語処理

リンク

OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。プロジェクトページ日本語詳細ページ学習、推定を行なう単体プログラムと、C++ライブラリからなります。（C++ライブラリ解説はまだ）。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習（SVMs, 最大エントロピー法）と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります（SVMsだと実装に

yowa 2008/05/11

リンク

DO++ : マルコフ情報源上で次の文字を予測する

文字列（単語列）を解析する際、i番目の文字はその直前(N-1)文字のみ依存するというマルコフ情報源を仮定することはいろいろな場面で現れます。例えば音声認識とか機械翻訳では、次の単語を直前(N-1)単語を使って予測するというN-gramモデルが古くから今でも使われてますし、データ圧縮でもこれと全く同じように履歴を使って次の文字を予測し、その予測確率を用いて符号化するPPMモデルがあります。ここで問題になるのは、何文字前まで見れば次の文字を予測できるかということが一般のデータだと分からないということです。例えば4文字前まで見た場合より5文字前まで見たほうが次の文字が確実に予想できそうですが、4文字前までは過去のデータで何回もでているのに5文字になると途端に出現回数が少なくなってサンプル数が少なくなってしまい予測精度が低下してしまう問題があります。そのため大抵は1,2,3..,N文字前の文

yowa 2007/11/30

> ＃となるとbwt + distance codeから演繹される確率分布を使って次の文字を高精度に予測することができるかも、という怪しい話を今ためしにやっているところです。

言語処理

リンク

tx bepの内部技術の発表 - DO++

txとbepの内部で使われている技術についてグーグル東京で話してきました。発表資料 [ppt/pdf] txはloudsと呼ばれる木構造の簡潔表現を利用していて、bepは最小完全ハッシュ関数を利用しています。その他こまごまとした実装も書いてあります（例えば、trieの枝についている文字情報はどう保存されているかとか）いろいろ貴重な意見もいただいたのでそれを反映させていこうとおもいます。 hey there and thank you for your info - I've certainly picked up anything new from right here. I did however expertise a few technical issues using this web site, as I experienced to reload the site man

yowa 2007/11/22

Algorithm

リンク

DO : Bep: 最小完全ハッシュ関数を用いた連想配列

Bepという連想配列のライブラリを公開しました。BSDライセンスです．キーは文字列限定で，前もって大量のキーと値のペアが前もって分かっている場合（１千万個とか）、使ってもらえるよう最適化しています。（一応、アドホックな方法で一個ずつキーを登録する方法もサポートしています）特徴は内部に最小完全ハッシュ関数を利用しており少ない作業領域量でありながらそこそこ高速に動くところです．今のところ１千万キーぐらいで動作するのは確認しています．１キーあたり必要な作業領域量は大体3bit + キー自体の長さになります．最小完全ハッシュ関数の構築自体も面白い問題です．最小完全ハッシュ関数はキー同士が衝突せず、さらにキーの数がn個のときハッシュ値は[0...n-1]が返されるもので、ぎっしり詰まった連番が返されると思ってもよいです。この実現には以下の論文での手法を使いました．3-ハイパーグラフの頂点割り当

yowa 2007/11/02

Algorithm

リンク

DO++: AND検索の最尤推定

検索技術においてAND検索、つまり二つの単語を指定して、それが両方出現している文書数の推定を高速に行うのは難しい問題です。問題を正しく書くと単語w_xが出ている文書番号(x1,x2,x3,..,xn)とw_yが出ている文書番号(y1,y2,y3,...,ym)が与えられたら | {(i,j)|x_i = y_j} | の数を求める問題です。これは前もって全通り求めて保存しておくにも単語種類数の二乗のオーダー分必要なのでできません。これは機械学習でも特徴関数が0/1の値しかとらないとき、二つの要素の特徴ベクトルの内積を求める問題と同じで、またデータベースでもJOINの順番を決めるときにでてくる問題です。普通は全体の文書からサンプルをとって、その中で数えてみて、それを元のサイズにスケールさせることをします。例えば全体文書1億件の中から文書1000件だけとってきて、その中でw_xとw_y

yowa 2007/10/01

リンク

Bayesian Sets - DO++

Bayesian Sets, Z. Ghahramani, K. A. Heller, NIPS 2005 [paper] が面白い Google Setsにインスパイヤされたと書かれている。これが扱っている問題は、複数のクエリを与えた時に、それが含まれているだろうクラス/コンセプト/クラスター集合の残りの要素を返すという問題。このペーパーでも書かれている通り、clustring on demand　という言葉がぴったりだと思う。このペーパーでは、その問題をきちんと確率モデルで定式化していて、それは効率的に解けて、結果も（たぶん）いい。このペーパーを見てまだもやもやしているのは、supervised clustring とどう違うのかという点。ざっと読んでみた感じだと、従来のクラスタリングでは正解のクラスタリングが一つ存在していて、それを求めるのに対し、今回のやつはおなじ要素でもクエリ

yowa 2006/09/17

リンク

はてなブックマーク

タグ

ブックマーク / hillbig.cocolog-nifty.com (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス