タグ

nlpとrubyに関するfrsh_mtのブックマーク (4)

  • TinySegmenterをRubyに移植 - llameradaの日記

    Javascriptだけで書かれたコンパクトな分かち書きソフトウェアであるTinySegmenterをRubyに移植しました。移植してから別実装があるのに気がつきましたが、気にせず公開することにします。 Codereposにアップしてありますので、下記のURLよりダウンロードできます。 http://svn.coderepos.org/share/lang/ruby/ruby_tiny_segmenter/ MeCabに対するTinySegmenterの利点は、Ruby だけで書かれているので、どんな環境でも簡単に動作する点です。インストールも簡単です。Windows環境でMeCabをRubyから扱うのは少し面倒ですが、TinySegmenterならば殆んど問題ありません。 実行例はこんな感じです。 require "tiny_segmenter" words = TinySegmente

    TinySegmenterをRubyに移植 - llameradaの日記
  • Mechanize, Hpricot, MeCab でブログの頻出単語を調べる

    require 'MeCab' require 'rss' require 'mechanize' require 'kconv' require 'hpricot' require 'open-uri' module MeCab class Node def category return self.feature.split(/,/)[0] end def each(&b) b[self] self.next.each(&b) if self.next end end end agent = WWW::Mechanize.new page = agent.get('http://d.hatena.ne.jp/akio0911/archive') # ページを開く m = MeCab::Tagger.new h={} # エントリへのリンクを抽出 page.links_with(:hre

  • ミク語変換(初音ミク用歌詞データ生成)Rubyスクリプト - aike’s blog

    年末年始は初音ミク三昧。 いろいろ触ってて思ったのは、歌詞のテキスト起こしがけっこう面倒くさいということ。だいたい以下のようなことをする必要があります。 漢字はすべてカナにする 助詞の「は」は発音どおり「わ」にする(例:あれは何→あれわなに) 他にも表記と発音が違うものは発音どおりにする(例:どうすりゃいいの→どおすりゃいいの) 促音の「っ」は直前の母音にした方がうまくいく(例:ちょっとでいいのだ→ちょおとでいいのだ) そんなわけでそういった変換を自動でやってくれるプログラムを作ってみました。一番大変な上記1〜3はMeCabを入れれば全部やってくれるので、実は促音の処理を書くだけです。このへんを参考にしました。 ためしにid:navさんの自動作詞で生成した歌詞を変換すると以下のようになります。 実行 ruby mikugo.rb < kanji.txt > kana.txt 入力 ベッドの

    ミク語変換(初音ミク用歌詞データ生成)Rubyスクリプト - aike’s blog
  • Rubyで全ての漢字を列挙する (polog)

    正しくは"UTF-8で表現できる"が接頭辞につきます。また、前提として僕はエンコードやらバイナリやらに関してはドがつく素人です。 すべての漢字を取り出す正規表現を以前読んでいて、ちょっと作りたいものがあって全ての漢字の列挙を行いたかったのでこれを参考にやってみた。 多分だけど、Rangeで範囲内の全ての漢字を取り出せるかなあと思って、まずは単純にirbで ("一".."龠").step(1){|s| puts s} ってやった所、数百文字で止まり、しかも途中からは漢字ではない??みたいなのが出力されている。おかしい。どれくらいの範囲が確保されていて、どれくらい漢字でないものが含まれているんだろう。 unpackしてバイト列に直したものを10進数に変換してみる。 >> "一".unpack('C*').map{|i| i.to_s(16)}.join => "e4b880" >

  • 1