タグ

ブックマーク / takeda25.hatenablog.jp (3)

  • Google 辞めました - アスペ日記

    Google辞めました。 最終出社日は 5月11日。 5月31日まで有給消化。 その後は無職。 転職先が決まっていて有給消化している「なんちゃって無職」ではなく、ガチ無職。 とりあえずハロワでも行こうと思う。 まず初めに。 この記事は、Twitter で @takeda25 をフォローしてくれている人たちが想定読者だ。 また、これは相当長くなると思う。さらに、中ではたとえ話を使うので、読んでもさっぱりピンと来ないかもしれない。 だから、長い文章を読んで「読んで時間を無駄にした」と思うタイプの人は、ここで読むのをやめてほしい。 もう一つ。 この記事を書いた人間(真鍋宏史)は無名の一社員で、ろくに業績もない。 そういう人間が何かを言っても聞く価値はないと思うなら、やはり読むのをやめてほしい。 この記事では、自分のいた場所に対してネガティブなことも書くと思う。 そのため、なぜそういう行動を取るか

    Google 辞めました - アスペ日記
  • 日本語の自然言語処理には Perl も便利 - アスペ日記

    小ネタ。Perl で日語の簡単な処理をするやり方(こういうことが簡単にできるという例で、具体的なオプションの意味等は解説していない)。 コマンドラインでちゃちゃっと日語の処理をしたい時、Perl はけっこう役に立つ。日語の一文字を一文字として扱えるから。特に、コマンドラインやファイルのエンコーディングを UTF-8 で統一しておくといい。 例えば、ひらがなの単語リストを読み込んでカタカナにするには、次のようにすればいい(「ヴ」は扱い方によって変わるので省略)。 perl -CS -Mutf8 -ple 'tr/ぁ-ん/ァ-ン/' < in.txt > out.txt カタカナの単語リストの最初の一文字を濁音から清音にしたいということがあるかもしれない。そういう時はこうする(「ヴ」については同上、半濁音の処理も略)。 perl -CS -Mutf8 -ple 's{^(.)}{my $

    日本語の自然言語処理には Perl も便利 - アスペ日記
  • 可変次数 N-gram デコードのアルゴリズム - アスペ日記

    前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。 こういう時に使われるのが「ラティス構造」。こういうやつ↓ (この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの) それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。 これをプログラム上でどう実現するか。 まず、共通接頭辞検索というものを使う。 これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。 例えば、「くるまで」をキーとして使うと、「く

    可変次数 N-gram デコードのアルゴリズム - アスペ日記
  • 1