タグ

ブックマーク / komachi.hatenablog.com (6)

  • 大規模データを扱うためのツールが公開されているのはありがたい - 武蔵野日記

    情報処理学会第73回全国大会に来ている。The Art of Algorithms for Massive Data Processing: ERATO湊離散構造処理系プロジェクトシンポジウム(第2回)を聞きにきた。なんで "The Art of ..." なのかと思ったら、いわゆる TAOCP こと Art of Computer Programming, Volume 4, Fascicle 1, The: Bitwise Tricks & Techniques; Binary Decision Diagrams 作者: Donald E. Knuth出版社/メーカー: Addison-Wesley Professional発売日: 2009/03/17メディア: ペーパーバック クリック: 8回この商品を含むブログ (3件) を見るに大々的に BDD (Binary Decision

    大規模データを扱うためのツールが公開されているのはありがたい - 武蔵野日記
  • 検索エンジン自作入門: NAIST サマーブートキャンプ2009 - 武蔵野日記

    出発1週間前なのだがまだ住居が決まらないようだ。うーむ、大丈夫だろうか。ま、海外も何回目にもなると、お金さえあればなんとかなるだろうという気になっているのだが……。 今日は学内 TOEIC。試験用紙が配られて、「封を解いて落丁がないか確認してください」と言われてしばらくリスニングが始まらず変だなと思いつつ後ろの問題を少し解き始めたら、係員の人に「まだ始めないでください」と慌てて注意された X-( まあ、試験時間20分余ったので、ここでフライングしたのは関係なかろう……。最近自分のハイスコアが更新できなくなってきたので、ここで一度更新しておきたいのだ。無料で受けられるのもあと1回しかないし……。 NAIST のサマーブートキャンプの案内が出たようだ。これまで毎年スプリングセミナーというのを春にやっていて、学部3年生もしくは飛び級したい2年生(つまりその年の夏に受験する人)をメインターゲットに

    検索エンジン自作入門: NAIST サマーブートキャンプ2009 - 武蔵野日記
  • 超大規模なウェブデータを使った研究をするための方法 - 武蔵野日記

    ちょっと仕事を早めに抜けさせてもらって企業見学。先日の Key-Value Store 勉強会で名刺を交換しただけなのに、非常に丁寧に応対してくださって大変ありがたい。 うーむ、日で超大規模な Web のデータを使って(自由に論文が書けるという意味での)研究ができるところ、自分は一つくらいかなぁと思っていた(PFIを入れると2つ)のだが、ここでもできるのか……パラダイス的な感じで衝撃を受けた。中途採用に応募するときはこういうふうにしたほうがいいですよ、と教えてくれたり、ぶっちゃけた話も参考になりすぎる(笑) 超大規模(ここで言う超大規模というのは日で考えてシェアトップ3に入るような規模の話)データでなければもっといろいろやっているところはあるだろうが、シェアが数%に満たなかったり、研究としてはもちろん意義はあるだろうが、サービスのインパクトとしては……みたいなのは思うことがある。 リン

    超大規模なウェブデータを使った研究をするための方法 - 武蔵野日記
  • Web API を用いたかな漢字変換 - 武蔵野日記

    Web API を公開しているかな漢字変換といえば Yahoo! のかな漢字変換 APIが有名だが、最近こういうのを使って公開されているサービスが増えてきた。 たとえばsimejiというアプリケーションは、Social IME (この頭文字から sime の部分が出てきたらしい)の Web API を利用して変換しているらしい。 他にも JavaScript IME というのが上記 Yahoo! かな漢字変換 API と Social IME API 両方を切り替えて使うことができるのだが、これよりは jime というブックマークレット経由で起動できる IME の方が有用かもしれない。 しかし Yahoo! かな漢字変換が VJE そのものとすると、去年アルゴリズム的に起きた変化としては、Google語 N グラムが公開されたことによる ChaIME の開発と Social IME

    Web API を用いたかな漢字変換 - 武蔵野日記
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 日本語が亡びるとき、IME も亡びる - 生駒日記

    各地で噂に(?)なっていた 日語が亡びるとき―英語の世紀の中で 作者: 水村美苗出版社/メーカー: 筑摩書房発売日: 2008/11/05メディア: 単行購入: 169人 クリック: 12,657回この商品を含むブログ (459件) を見る を読んでみた。なんだこれは……。歴史的な認識の誤りとか日の国語国字問題とかそういう部分での知識の欠如とか多すぎて話にならない。まずこれは「論文」ではない。一言で要約すると「ワタシは明治・大正時代の日小説が美しくて好きだ。なぜならその時代の日小説家は知識人だったからだ。この美しい日語の小説が読まれなくなるのは腹立たしいので、日の若い世代でも明治時代の小説が読めるように、日政府はちゃんと日語を教育しなければならない」というものである。気持ちは分からないでもないが、そういう気持ちがあったとしても、他人を説得する文章を書きたいのであれば、

    日本語が亡びるとき、IME も亡びる - 生駒日記
  • 1