タグ

2011年1月4日のブックマーク (8件)

  • 双対分解による構造学習 - Preferred Networks Research & Development

    入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習(Structured Output Learning)と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。 今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。 # 構造学習についてよく知っているという方は双対分解による構造学習のところまで読み飛ばしてください。 構造学習の導入 構造を有した出力の例として、 ラベル列 (品詞、形態素列の推定、時系列におけるアクションの推定、センサ列) 木    (係り受け解析における係り受け木、構文解析木、談話分析、因果分析) グラフ  (DAG:述語項構造による意味解析 二部グラフマッチング:機械翻訳の単語対応) 順位付集合(検索における順位

    双対分解による構造学習 - Preferred Networks Research & Development
  • ある分野の研究者となるために - あしたからがんばる ―椀屋本舗

    先日のJUMAN/KNPのラッパーの話の続き。 この前書いたjumanknp.rbはLinuxで書いたのだが、あれをWindowsに持って行ったときに思いがけない罠に嵌った。 Threadから立ち上げたjuman -Sと通信をするとなぜか、 金閣寺について。 金閣寺について。 金閣寺について。 未定義語 15 その他 1 * 0 * 0 NIL EOS みたいな感じで返ってくる。ちなみに期待するのはこんな感じ。 金閣寺 きんかくじ 金閣寺 名詞 6 組織名 6 * 0 * 0 "代表表記:金閣寺/きんかくじ" に に に 助詞 9 格助詞 1 * 0 * 0 "連語" ついて ついて つく 動詞 2 * 0 子音動詞カ行 2 タ系連用テ形 14 "連語" 。 。 。 特殊 1 句点 1 * 0 * 0 NIL EOS 試しに別のプロンプトを立ち上げて、juman -C localhost:

    ある分野の研究者となるために - あしたからがんばる ―椀屋本舗
  • エンジニア長期インターン GREE Studio 2010 5日目 | GREE Engineering

    前回に引き続き、井上が書かせていただきます。 GREE Studio 2010 5日目の講義内容はデータマイニングエンジニア、moritaさんによる「データマイニング」。業務のログ解析において用いられるデータマイニングの内容です。前回はレポート形式でしたが、今回はもう少しエンジニアリングブログに近い形で書こうと思って頑張りました。宜しくお願いします。今回のブログの内容は、 データマイニングの基礎知識 大規模データへの挑戦 になります。後で定義しますが、ここでの「データマイニング」とはデータを取得し、集計する作業も含めてこの言葉を指すことにしています。また、解析者とはデータマイニングを行う人のことを指します。(GREEではデータマイニングエンジニアと呼ばれています。)moritaさんの講義で学んだことを自分なりに膨らましてみました。色々誤りがあると思いますが、そういった部分は(優しく)指摘し

    エンジニア長期インターン GREE Studio 2010 5日目 | GREE Engineering
  • rinko2010

    3. 4 [Lafferty+, 01] Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. John Lafferty, Andrew McCallum, Fernando Pereira. Proceedings of ICML’01, 2001. [Collins, 02] Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. Michael Collins. Proceedings of EMNLP’02, 2002. [Morency+, 07] Latent-dynamic discrim

    rinko2010
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
  • perl - 短縮URLを一行で展開する : 404 Blog Not Found

    2011年01月03日06:00 カテゴリLightweight Languages perl - 短縮URLを一行で展開する Perlですから。 Schwarze SQ: 短縮URLを展開するRubyスクリプトを作ってみた なにやら短縮URLを使い、不正なサイトにアクセスさせウィルスに感染させる行為が流行っているらしい(まぁ想定の範囲内だが)。そこで、短縮URLを展開できるrubyスクリプトをちょちょっと作ってみた。perl -MLWP::UserAgent -lE \ 'say LWP::UserAgent->new->head(shift)->request->uri' \ http://j.mp/dankogai id:amachangが昔こさえてくれたこの短縮URLもhttp://blog.livedoor.jp/dankogai/と展開されるはずです。 もう少しverboseに

    perl - 短縮URLを一行で展開する : 404 Blog Not Found
  • wat-arrayでラクラク実装☆FM-Indexの作り方 - EchizenBlog-Zwei

    というわけで大変便利なライブラリwat-arrayを使ってFM-Indexを簡単に実装してみるよ。格的なライブラリは既にFM-Index++という良いものがあるので、記事では仕組みの解説を目的とする。 参考資料: FM-index++を公開しました - tb_yasuの日記 An alphabet-friendly FM-index (P. Ferragina, G. Manzini, V. Makinen, G. Navarro, 2004) なお、記事では前回の記事で実装した(ってほどでもないけど)text2bwt()とLF()を使っている。 話題のwat-arrayを使ってBurrows-Wheeler変換(BWT)してみた - EchizenBlog-Zwei 今回もテキストとしてmississippi#を使う。まずテキストから任意のキーの出現回数を得る関数get_rows(

    wat-arrayでラクラク実装☆FM-Indexの作り方 - EchizenBlog-Zwei
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存