タグ

ブックマーク / tkng.hatenablog.com (8)

  • 日本語入力に関する本を書いています - 射撃しつつ前転 改

    WEB+DB PRESS vol.64の発売日ということで、雑誌記事の中身がオープンになるので、こちらでも情報をオープンします。 今、日本語入力に関するを書いています。出版社は技術評論社で、今秋発売に向けて鋭意執筆中です。 のコンセプトとしては、手を動かして実際に作れるようにしたいというスタンスで、話題は思いっきり実装よりに振っています。7割ぐらいはデータ構造と機械学習の話だと言っても過言ではありません。 カッコウハッシュ、ダブル配列、LOUDS、構造化パーセプトロン、構造化SVMなど、これまでの日語の書籍にはあまり載っておらず、知りたければ大学のそれっぽい研究室に行くか、自分で論文かブログ記事を探して読むかでもしないと手に入らなかった知識を丁寧に説明してあるところが特徴です。自分が学生時代に知りたかったトピックを詰め込みました。 また、系列ラベリングに関してこれだけ力を入れたは、

    日本語入力に関する本を書いています - 射撃しつつ前転 改
    syou6162
    syou6162 2011/08/24
    これは買う
  • 劣微分を使った最適化手法を紹介しました - 射撃しつつ前転 改

    新年明けましておめでとうございます、というのもはばかられるような時期になってしまいましたが、今年もこんな感じでのんびりとやっていきたいと思います。よろしくお願いします。 会社ブログの方で、劣微分を使った最適化手法として、FOBOSを紹介しました。線形識別器とは、というところから話を始めたら、実際の論文紹介にたどり着くまでに4回もかかってしまいましたが、何も知らないところからFOBOSでSVMが書けるというところまで、早足ですが一応一通り紹介したつもりなので、FOBOSに興味があるけどまだ論文読んでない、という人はぜひチェックしてもらえればと思います。使えるカーネルは線形カーネルか多項式カーネルぐらいに制限されてしまいますが、実用的なSVMが簡単に作れるというのは結構大きいですよ。ちなみに、FOBOSのところではSVMしか説明していませんが、第2回ではロジスティック回帰をSGDで最適化、とい

    劣微分を使った最適化手法を紹介しました - 射撃しつつ前転 改
  • Why doesn't EM find good HMM POS-taggers? - 射撃しつつ前転 改

    Why doesn't EM find good HMM POS-taggers? (Mark Johnson, 2007)を読んだ。EMNLP-CoNLL2007の論文。もう学生じゃないし、仕事とはあんま関係ないから論文読んでも仕方ないんだけど、なんか読んでしまう……。 Unsupervised HMMの学習に関し、EMとGibbs Sampling(以下GS), Variational Bayes(以下VB)、によるパラメータ推定結果を比較している。GSは意外と結果が悪かったようだ(ただし、どうも収束するところまでサンプリングができてないっぽい、というような考察も書いてあった。数倍の時間を回せば結果は変わってくるかも)。 評価尺度としては隠れ状態をPOSタグに割り当てたときにどれだけ正しく割り当てられるかが用いられている。ある隠れ状態に対しもっとも共起回数の多いPOSタグを割り当てる、

    Why doesn't EM find good HMM POS-taggers? - 射撃しつつ前転 改
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
  • Confidence Weighted Linear Classificationを読んだ - 射撃しつつ前転 改

    ICML2008で発表されたDredzeらのConfidence Weighted Linear Classificationを読んだ。これは線形分類器を学習する新しいオンライン学習型アルゴリズムの提案である。すぐに使える実装としてはOLLというオープンソースのライブラリがあり、実際に良い実験結果が出ているようだ。 Confidence Weightedのアイデアは、よく出てくる素性に関しては一回の更新における数値の変更量を減らしてやり、あまり出てこない素性に関しては、一回の更新でぐっと値を変更してやろう、というものである。 こういった新しい更新方法を考案した動機を明らかにするために、Perceptronを使って、単語を素性として評判分類の学習を行うような問題を考えてみる。肯定的な評価のサンプルとして"I liked this author."というものがあったとすると、このサンプルの分類

    Confidence Weighted Linear Classificationを読んだ - 射撃しつつ前転 改
    syou6162
    syou6162 2009/12/26
    オンライン機械学習のアルゴリズムCWの分かりやすい説明。なぜブクマしていなかったのか
  • auto-complete-ruby.elを使ってオムニ補完する - 射撃しつつ前転 改

    数日前からauto-complete.elを使い出している。知らない人のために説明しておくと、auto-complete.elというのはカーソル位置にポップアップで補完候補を出してくれるEmacs用のライブラリだ。auto-complete.elという名前だけど、カーソル位置にポップアップが出てくるというのが非常に重要だと思っている。 今仕事で書いているのは主にpythonperlのコードなのでオムニ補完(文脈を見て補完してくれる)はできないんだけど、長めのメソッド名などをサクッと補完できると、それだけで結構いい感じだ。 Rubyの場合はauto-complete-ruby.elを使うことでrcodetoolsを使ったオムニ補完ができるのだが、これを動かすのに結構ハマったのでメモを残しておく。rcodetoolsはgemで普通にインストールできる。 gem install rcodeto

    auto-complete-ruby.elを使ってオムニ補完する - 射撃しつつ前転 改
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • 1