タグ

NLPとMLに関するsleepy_yoshiのブックマーク (10)

  • テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!

    一夜目はパターン認識と機械学習の概要を学びました。今夜は、識別部で用いられる機械学習の基的な線形識別器である「パーセプトロン」を具体的に学びたいと思います。「線形識別器?パーセプトロン?何それ?」字面は厳しいですが、手を動かしてみると意外と簡単に理解できます。今夜からは数式をバリバリ使っていきますし、手を動かしていただきます。「必ず」手元にペンと紙を用意してください。そうは言ってもパーセプトロンが一体何なのか、機械学習の中でどのような位置づけなのかがわからないと混乱するかもしれません。パーセプトロンの説明へ入る前に、機械学習の3つのアプローチをご紹介します。 ●機械学習の3つのアプローチ - 識別関数、識別モデル、生成モデル 機械学習は大きく分けて識別関数、識別モデル、生成モデルという3つのアプローチがあります。 識別関数 := 入力データを見て、特定のクラスに属するよう識別(代表的な手

    テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!
  • Gmail優先トレイ論文メモ - kisa12012の日記

    元論文 “The Learning Behind Gmail Priority Inbox”, Douglas Aberdeen, Ondrey Pacovsky, Andrew Slater, LCCC : NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds. http://research.google.com/pubs/archive/36955.pdf Gmail Priority InboxにはPAが利用されていると話題になっているので,読んでみました. 簡単にまとめ PA + transfer learning + logistic model ランキング学習では,thresholdが非常に重要な働きを持つ Gmail Priority Inboxはあなたのメール処理の時間を6%短縮してくれます 1.The

    Gmail優先トレイ論文メモ - kisa12012の日記
  • 双対分解による構造学習 - Preferred Networks Research & Development

    入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習(Structured Output Learning)と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。 今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。 # 構造学習についてよく知っているという方は双対分解による構造学習のところまで読み飛ばしてください。 構造学習の導入 構造を有した出力の例として、 ラベル列 (品詞、形態素列の推定、時系列におけるアクションの推定、センサ列) 木    (係り受け解析における係り受け木、構文解析木、談話分析、因果分析) グラフ  (DAG:述語項構造による意味解析 二部グラフマッチング:機械翻訳の単語対応) 順位付集合(検索における順位

    双対分解による構造学習 - Preferred Networks Research & Development
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
  • Sampling: Random Order? Corpus Order? | Graham's Research Blog

    Machine Translation, Speech Recognition, Machine Learning, and the like. Gibbs sampling is a common technique that is used in Bayesian learning that is used to find the true distribution of some distribution over probabilistic variables that we cannot calculate directly. I won’t cover the details here, but Wikipedia or Pattern Recognition and Machine Learning give good introductions. But the impor

  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
  • Hal Daumé III

  • Domain adaptation vs. transfer learning

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) The standard classification setting is a input distribution p(X) and a label distribution p(Y|X). Roughly speaking, domain adaptation (DA) is the problem that occurs when p(X) changes between training and test. Transfer learning (TL) is th

  • 機械学習による自然⾔語処理 チュートリアル 〜PerceptronからCRFまで〜 (2008-08-03-crf.pdf)

    機械学習による自然⾔語処理 チュートリアル 〜PerceptronからCRFまで〜 岡野原 大輔 東京大学 Preferred Infrastructure 2008 8/3@PFI郷オフィス 目次 • 自然⾔語処理 紹介 • 機械学習導⼊ • パーセプトロン • バッチ学習 (最大エントロピー法) • 過学習/正則化 • 多クラス分類 • 系列分類 (CRF, Structured Perceptron) このへんで 眠くなる 自然⾔語処理 (1/2) • ⾔語情報をコンピュータで処理する – コンピュータ⾔語の研究との対⽐で自然⾔語 – 世界最初のコンピュータの出現の頃から自動翻訳は 試みられている。コンピューターサイエンスの中で も歴史の⻑い分野 – 近年ビジネス的にも成功, Googleなどなど • 非常に幅広い分野と接触する、境界領域 – 処理する⼿法 = ⾔語学, 数学,

  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 1