[B! mecab] gan2のブックマーク

gan2 id:gan2

mecabに関するgan2のブックマーク (4)

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe
第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク
gan2 2008/02/16
mecab
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
gan2 2007/11/02
google

mecab
リンク
Windows上のrubyでMeCabをちょっこっと使ってみたい - Λάδι Βιώσας
ActiveRubyとかからちょろっとMeCabを使ってみたい、、、でもMeCabのruby bindingとか使うのは億劫、って人向けに書いてみました。単にpopenで直接MeCabを呼んでるだけですが、、、 #!/bin/ruby -Ks # -*- coding: euc-jp -*- # # easymecab.rb # class MeCab def initialize(option) @path = "/cygdrive/c/MeCab/bin/mecab.exe" # MeCabへのパス @option = option end def parse_file(s) cmd_string = [@path, @option, s].join(" ") word_list = [] io = IO.popen(cmd_string, "r") until io.eof? wor
gan2 2007/05/29
*ruby

mecab
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx