[B! nlp][ruby] frsh_mtのブックマーク

frsh_mt id:frsh_mt

nlpとrubyに関するfrsh_mtのブックマーク (4)

TinySegmenterをRubyに移植 - llameradaの日記
Javascriptだけで書かれたコンパクトな分かち書きソフトウェアであるTinySegmenterをRubyに移植しました。移植してから別実装があるのに気がつきましたが、気にせず公開することにします。 Codereposにアップしてありますので、下記のURLよりダウンロードできます。 http://svn.coderepos.org/share/lang/ruby/ruby_tiny_segmenter/ MeCabに対するTinySegmenterの利点は、Ruby だけで書かれているので、どんな環境でも簡単に動作する点です。インストールも簡単です。Windows環境でMeCabをRubyから扱うのは少し面倒ですが、TinySegmenterならば殆んど問題ありません。実行例はこんな感じです。 require "tiny_segmenter" words = TinySegmente
frsh_mt 2008/12/25
ruby

library

nlp

分かち書き
リンク
Mechanize, Hpricot, MeCab でブログの頻出単語を調べる
require 'MeCab' require 'rss' require 'mechanize' require 'kconv' require 'hpricot' require 'open-uri' module MeCab class Node def category return self.feature.split(/,/)[0] end def each(&b) b[self] self.next.each(&b) if self.next end end end agent = WWW::Mechanize.new page = agent.get('http://d.hatena.ne.jp/akio0911/archive') # ページを開く m = MeCab::Tagger.new h={} # エントリへのリンクを抽出 page.links_with(:hre
frsh_mt 2008/12/12
ruby

nlp
リンク
ミク語変換（初音ミク用歌詞データ生成）Rubyスクリプト - aike’s blog
年末年始は初音ミク三昧。いろいろ触ってて思ったのは、歌詞のテキスト起こしがけっこう面倒くさいということ。だいたい以下のようなことをする必要があります。漢字はすべてカナにする助詞の「は」は発音どおり「わ」にする（例：あれは何→あれわなに）他にも表記と発音が違うものは発音どおりにする（例：どうすりゃいいの→どおすりゃいいの）促音の「っ」は直前の母音にした方がうまくいく（例：ちょっとでいいのだ→ちょおとでいいのだ）そんなわけでそういった変換を自動でやってくれるプログラムを作ってみました。一番大変な上記1〜3はMeCabを入れれば全部やってくれるので、実は促音の処理を書くだけです。このへんを参考にしました。ためしにid:navさんの自動作詞で生成した歌詞を変換すると以下のようになります。実行 ruby mikugo.rb < kanji.txt > kana.txt 入力ベッドの
frsh_mt 2008/01/07
初音ミク

ruby

nlp
リンク
Rubyで全ての漢字を列挙する (polog)
正しくは"UTF-8で表現できる"が接頭辞につきます。また、前提として僕はエンコードやらバイナリやらに関してはドがつく素人です。すべての漢字を取り出す正規表現を以前読んでいて、ちょっと作りたいものがあって全ての漢字の列挙を行いたかったのでこれを参考にやってみた。多分だけど、Rangeで範囲内の全ての漢字を取り出せるかなあと思って、まずは単純にirbで ("一".."龠").step(1){|s| puts s} ってやった所、数百文字で止まり、しかも途中からは漢字ではない??みたいなのが出力されている。おかしい。どれくらいの範囲が確保されていて、どれくらい漢字でないものが含まれているんだろう。 unpackしてバイト列に直したものを10進数に変換してみる。 >> "一".unpack('C*').map{|i| i.to_s(16)}.join => "e4b880" >
frsh_mt 2007/12/04
ruby

nlp
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx