[B! 形態素解析] namikisterのブックマーク

「圧縮新聞」を作った - phaの日記

僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と

namikister 2007/11/26

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

namikister 2007/11/02

リンク

MeCab: 単語の追加方法

$Id: dic.html 161 2008-02-03 09:58:46Z taku-ku $; 概要辞書への単語追加には, 二つの方法があります. システム辞書への追加ユーザ辞書への追加システム辞書への追加辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード例: u

namikister 2007/10/25

形態素解析

リンク

たけまる / Perl - Text::MeCab を使ってみた

_ Perl - Text::MeCab を使ってみた [perl][nlp] MoSQL をインストールしたついでに，MeCab を Perl から使えるようにしてみました．MeCab は日本語の形態素解析を行うツールで，文章を単語に区切り，品詞名を推定してくれます．たとえば，文章から固有名詞を抜き出したり，読み仮名をふるときに使えます． MeCab と Text::MeCab というふたつのモジュールがありますが，インタフェースと速度の面で Text::MeCab が優れているようです． Text::MeCab を使って，わかち書きと品詞推定をやってみました．品詞情報をハッシュキーで指定できるように，ちょっと工夫してあります (ex. $word->{'品詞'} で品詞名，$word->{'読み'} で読み方を得られる)． MeCab のインストールについては "MoSQL

namikister 2007/10/24

リンク

統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発

日本語意味解析エンジンを開発するSematicsは6月15日、統計的確率論を用いた言語解析エンジン「Perceptron Engine」を開発したと発表した。統計的確率論を用いた日本語解析エンジンは「世界初」（同社）という。 Perceptron Engineは「形態素解析」、「構文解析」、「文脈解析」、「意味解析」の4つの解析処理によって構成される。従来の言語解析技術は、辞書によるデータのマッチングにより処理されていたため、データ容量が膨大で、その処理に多大な時間を要した。一方、Perceptron Enginesは大規模な辞書を用いないため、少ないメモリやディスク容量でも高速処理が可能で、500文を1秒で解析できるという。形態素解析とは、文章を形態素と呼ばれる、意味を持つ語句の最小単位まで分割して解析するもの。各語句を品詞単位、動詞や形容詞といった活用語句の場合はその活用形ごとに解析

namikister 2006/06/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

形態素解析に関するnamikisterのブックマーク (6)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス