タグ

2011年8月25日のブックマーク (3件)

  • 日本語の自然言語処理には Perl も便利 - アスペ日記

    小ネタ。Perl で日語の簡単な処理をするやり方(こういうことが簡単にできるという例で、具体的なオプションの意味等は解説していない)。 コマンドラインでちゃちゃっと日語の処理をしたい時、Perl はけっこう役に立つ。日語の一文字を一文字として扱えるから。特に、コマンドラインやファイルのエンコーディングを UTF-8 で統一しておくといい。 例えば、ひらがなの単語リストを読み込んでカタカナにするには、次のようにすればいい(「ヴ」は扱い方によって変わるので省略)。 perl -CS -Mutf8 -ple 'tr/ぁ-ん/ァ-ン/' < in.txt > out.txt カタカナの単語リストの最初の一文字を濁音から清音にしたいということがあるかもしれない。そういう時はこうする(「ヴ」については同上、半濁音の処理も略)。 perl -CS -Mutf8 -ple 's{^(.)}{my $

    日本語の自然言語処理には Perl も便利 - アスペ日記
  • http://atnd.org/events/19291

    http://atnd.org/events/19291
    kitanow
    kitanow 2011/08/25
    ストラウストラップ本で勉強会
  • 日本語入力に関する本を書いています - 射撃しつつ前転 改

    WEB+DB PRESS vol.64の発売日ということで、雑誌記事の中身がオープンになるので、こちらでも情報をオープンします。 今、日本語入力に関するを書いています。出版社は技術評論社で、今秋発売に向けて鋭意執筆中です。 のコンセプトとしては、手を動かして実際に作れるようにしたいというスタンスで、話題は思いっきり実装よりに振っています。7割ぐらいはデータ構造と機械学習の話だと言っても過言ではありません。 カッコウハッシュ、ダブル配列、LOUDS、構造化パーセプトロン、構造化SVMなど、これまでの日語の書籍にはあまり載っておらず、知りたければ大学のそれっぽい研究室に行くか、自分で論文かブログ記事を探して読むかでもしないと手に入らなかった知識を丁寧に説明してあるところが特徴です。自分が学生時代に知りたかったトピックを詰め込みました。 また、系列ラベリングに関してこれだけ力を入れたは、

    日本語入力に関する本を書いています - 射撃しつつ前転 改
    kitanow
    kitanow 2011/08/25