タグ

2011年11月17日のブックマーク (3件)

  • オンライン凸最適化と線形識別モデル学習の最前線 - Preferred Networks Research & Development

    内容は線形識別モデルの学習について(Perceptron, PA, CW, AROW, NHELDとNLP2010のtutorial + 最新のアップデート. 更新式が整理されています)、オンライン凸最適化のregret解析、sublinearなSVMの学習の話です。最近公開したjubatusの中の学習アルゴリズムの解説でもあります。 コスト関数が凸である場合のOnline Gradient Descentのregret解析の証明は美しかったので、普通はこういうのはプレゼンではやらないとおもうのですが紹介しました。 Sublinearの学習の話は今後いろいろ発展しそうです。各学習例に動的に重みをつけて優先的に学習する方法は直感的にはできそうだと昔考えてたのですが、こういう形できれいに定式化できるのだと感心しました。 IBISはそこそこ参加していますが、毎年新しい分野の問題が登場してきて面白

    オンライン凸最適化と線形識別モデル学習の最前線 - Preferred Networks Research & Development
    laughing
    laughing 2011/11/17
    AROW 以降で紹介されているのは読んでないので,読んでおきたいな
  • MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac

    HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su

    MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac
  • Hadoop完全分散モードが動かなくてハマったところ4選 - kj-ki’s blog

    前エントリの完全分散モードでの動作ですが,実はすんなりとは行かず,何日も苦しみました. ググっては試し,ググっては試し,の繰り返し... やっとまともに動くようになり,振り返ってみるとショボいミスもありましたが, これ以上犠牲者が増えないように自分がハマったところを書いておきたいと思います. Reduceが途中で止まる or ものすごく時間が掛かる 一番悩んだのが,これ. datanodeを複数にすると発症することが多かった. なんと原因は/etc/hostsにあり,ホスト名とドメイン名を書いておかなければなかった. hadoop0をMaster,hadoop1以降をWorkerとすると, # ×:localhostに記述があると,うまくいかない 127.0.0.1 hadoop1 localhost.localdomain localhost # ×:問題なさそうだが,ホスト名しか書かれ

    Hadoop完全分散モードが動かなくてハマったところ4選 - kj-ki’s blog
    laughing
    laughing 2011/11/17
    hdfs-site.xmlに <property> <name>dfs.permissions</name> <value>false</value> </property> を追記する.