タグ

ブックマーク / komachi.hatenablog.com (5)

  • Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

    id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

    Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
    TMTL
    TMTL 2010/06/15
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
    TMTL
    TMTL 2010/05/23
  • Google 日本語入力のヒューリスティック - 武蔵野日記

    Google 日本語入力のソースコードが公開されたらしい。Mozc (もずく)という名前だそうで。オフィシャルブログだけではなく、Twitter でもものすごい勢いで伝播していたようだが、すごいいつきである。そして、公開されるやいなや読んだ人もたくさんいるようで、そちらもすごいなと思う。日本語入力エンジンのソース読む人なんて、ほとんどいないと思っていたのだが、逆にこんなに日本語入力って注目されるんだ、と嬉しい気持ちである(でも日本語入力エンジン作る人が増えたりはしないのかもしれない)。 そんな感じでいち早くソースコード読まれた @tkngさんがMozc(Google日本語入力)のコードを読んだメモを公開してくださった。ありがたい。変換アルゴリズムは、挙動から考えてそうだろうな、と思っていたのと同じだった。変換履歴を用いたリランキングをするところがなかなか難しいのだが、@tkng さんも手

    Google 日本語入力のヒューリスティック - 武蔵野日記
    TMTL
    TMTL 2010/05/16
  • 自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記

    今学期は毎週論文紹介するネタを探すのも疲れるので、適宜論文紹介を入れながら、 Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies) 作者: Jimmy Lin,Chris Dyer出版社/メーカー: Morgan and Claypool Publishers発売日: 2010/08/15メディア: ペーパーバック クリック: 67回この商品を含むブログ (6件) を見るをしばらく読もうかと思っている。ちなみに http://www.umiacs.umd.edu/~jimmylin/book.html から全文の PDF がダウンロードできるので、そちらを使用予定。印刷・製してパラパラとめくっているが、テキスト的には割といいだと思う。みんながこぞ

    自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記
    TMTL
    TMTL 2010/04/21
  • ATOK の辞書をつくる - 武蔵野日記

    @klmquasi さんのお勧めで 電脳日語論 作者: 篠原一出版社/メーカー: 作品社発売日: 2003/03/01メディア: 単行購入: 1人 クリック: 8回この商品を含むブログ (11件) を見るを読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめたであり、日本語入力や計算機上の日語処理に興味のある人が読むと、とてもおもしろいだろう(2003年ので新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。 Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かと

    ATOK の辞書をつくる - 武蔵野日記
    TMTL
    TMTL 2009/12/24
  • 1