[B! mecab] amayanのブックマーク

amayan id:amayan

mecabに関するamayanのブックマーク (16)

mecab でマルコフ連鎖をためしてみる。 - コードを舐める日々
そういうのは、とても好き。昔からやりたがっていたこと。何よりも、プログラミングに任せて自動的にマルコフ連鎖で文章をおかしくない程度に要約させるのは神秘的で不思議なものを感じる。すばらしいエントリーに出会ったので試してみました。マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。上記の記事を参考に My MacBook Pro(Mac OS X 10.5.7 rubyは1.8.7)に試してみた。まずは、mac ports を使えるようにしておく。(もう既にそうしてあるので略する) 詳しくは、下記のエントリーがオススメです。 MacPortsでステキなUNIXツールをインストール - はこべにっき# $ sudo port install mecab +utf8 $ sudo port install mecab-ipadic-utf8 $ sudo por
amayan 2009/07/15
marcov

mecab
リンク
Ajax - ケブンッリジだがいくのけゅきんうのけっか : 404 Blog Not Found
2009年05月08日15:00 カテゴリLightweight LanguagesLogos Ajax - ケブンッリジだがいくのけゅきんうのけっかとういけわで、じうどかしみてた。ねとらぼ：確かに“読めてしまう”コピペに2ch住人が「人間すげー」と驚く - ITmedia News Use YJParse こんにちは。皆さんお元気ですか？私は元気です。この文章は、イギリスのケンブリッジ大学の研究の結果人間は文字を認識するとき、その最初と最後の文字さえ合っていれば順番は滅茶苦茶でもちゃんと読めるという研究に基づいてわざと文字の順番を入れ替えてあります。どうです？ちゃんと読めちゃうでしょ？ちゃんと読めたら反応よろしく。こんにちは。皆さんお元気ですか？私は元気です。この文章は、イギリスのケンブリッジ大学の研究の結果人間は文字を認識するとき、その最初と最後の文字さえ合ってい
amayan 2009/05/09
dankogai

mecab

text
リンク
MeCabで、キーワード抽出 - プログラマでありたい
形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。準備・Mecabのインストール省略・Wikipediaのダウンロード wikipediaからコーパスの作成を参照・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。この際、(曖昧さ回避)は除いておきます。併せて、カンマが入っている見出し文は、別のものに置き換えておくこと c
amayan 2008/12/12
programming

tutorial

wikipedia

mecab

perl
リンク
GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー！古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠
amayan 2008/01/08
Dartsと併せて勉強しておこう。

mecab

autolink

tips

programming

unoh
リンク
きまぐれ日記: Autolink: 前方最長一致ではなく最長キーワード優先一致を実現する
Hatena のキーワード置換アルゴリズムがTRIE ベースの手法に変更になったようです。以前に AC法でやる方法の記事を書いたのですが、それと似たことをやってるのでしょうか。 AC法のやり方は単純で、前方から最長一致でキーワードを見つけていきます。これまでは長いキーワードから順番に見つけていく方法(最長キーワード優先一致)だったそうですが、前方から見つけていく方法だと短いキーワードが優先される場合があります。 http://d.hatena.ne.jp/ita/20060119/p1 http://d.hatena.ne.jp/hatenadiary/20060119/1137667217 本文：あいうえおかきくけこさしすせそ KW1 いう KW2 うえおかき KW3 かきく KW4 きくけこさしという文でKW1-KW4のキーワードがマッチする場合、新しくなった方法では「いう」と「かき
amayan 2007/11/19
mecab

keyword

algorithm

programming

自然言語処理
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
amayan 2007/11/02
corpus

形態素解析

n-gram

mecab
リンク
MeCabで住所抽出 (OKILab.jp開発日記)
「MeCab 0.90 だけをつかって Auto Link」を参考に、MeCabを使って住所抽出してみます。元データとして国土交通省国土計画局国土情報整備室の街区レベル位置参照情報を利用します。ダウンロードページから、今回は平成18年度版の大阪府全域のデータ(27000-05.1a.zip)をダウンロードしました。 $unzip 27000-05.1a.zip Archive: 27000-05.1a.zip Length Date Time Name -------- ---- ---- ---- 14907 04-10-07 16:07 md_27_2006.xml 24563015 06-11-07 21:01 27_2006.csv 3325 01-22-07 20:00 format_2006.html -------- ------- 24581247 3 files $he
amayan 2007/10/03
MeCab + 国土交通省の街区レベル位置参照情報を使って文中から住所を自動抽出

mecab

map

gis
リンク
MeCab 2ch語辞書 - NeverBlog::Likk::Unexistable;
2chdic.070813.zip 83's : MeCab用、2ちゃんねる辞書からお借りしたMeCab用2ch語辞書が自分の使っているmecab version 0.95 に対応してなかったので、色々修正。コストもほんの少しだけ頑張ってみたけど、面倒なんで大部分がお借り元と一緒の3206です。暇を見てちゃんとコスト考えようかね。自分で何か付け加えたりとかはしていないので、最近の2ch語にも対応しておりません。左・右接続IDはデフォルトのIPA辞書の品詞・形態を元にしました。というか、デフォルトの辞書も左右のID一緒問題ないのかな。辞書の追加の仕方は　本家を参照してください。糞スレ立てんな、ヴォケが糞スレ名詞,一般,*,*,*,*,糞スレ,クソスレ,クソスレ立てん動詞,自立,*,*,一段,体言接続特殊,立てる,タテン,タテンな助詞,終助詞,*,*,*,*,な,ナ,ナ
amayan 2007/08/19
2ch

mecab

形態素解析
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
amayan 2007/06/23
api

mecab

形態素解析

yahoo!
リンク
404 Blog Not Found:perl - mecab-perl vs. Text::MeCab
2006年05月02日01:00 カテゴリLightweight Languages perl - mecab-perl vs. Text::MeCab これ見て先を越された! D-5 出張版・・・ということと、なんかMeCabのインターフェースが気に入らないので書きました、Text::MeCab。XSです。SWIGいりません（まぁ、最近はすでにSWIGで展開してあるバージョンが配布されてるけど）。変なtie()インターフェース使いません。だから速いです；P と思ったら、さらに # charsbar 『http://www.donzoko.net/cgi-bin/tdiary/20060302.html#p02 というものもありますが……』とあって、え、まかまかタン(なぜかタンづけ)がやってくれたの!? どんぞこ日誌(2006-03-02) できたのがこちらText-MeCab-0.0
amayan 2007/05/23
dankogai

mecab

perl
リンク
http://72.14.235.104/search?q=cache:IcUBj3-TTCgJ:wiki.media.t-kougei.ac.jp/index.php/MeCab%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB%E3%83%A1%E3%83%A2%20mecab%20input-buffer&hl=ja&ct=clnk&cd=2&gl=jp&client=firefox
amayan 2007/03/23
mecab
リンク
Text::MeCabは導入が楽
Text::MeCabは導入が楽 2006-09-24-3 [Programming][NLP] Text::MeCabはCPANに登録されているMeCabのPerlモジュール。 - Daisuke Maki / Text-MeCab-0.13 - search.cpan.org http://search.cpan.org/~dmaki/Text-MeCab-0.13/ - きまぐれ日記: Text::MeCab が公開された http://chasen.org/~taku/blog/archives/2006/05/textmecab.html MeCab.pm [2006-02-25-4]よりもこっちの方がインストールが手軽そうなので、サンプルプログラムに使おうかと。インストール方法： MaCab本体は事前にインストールしてあると仮定。 (取得はこちらから→ http://meca
amayan 2007/03/22
mecab

cpan

module

perl

Programming

text
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
amayan 2007/03/22
mecab

linux
リンク
形態素解析MeCab(和布蕪)をPerlから使ってみるゆうすけブログ/ウェブリブログ
「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧
amayan 2007/03/12
install

mecab

perl

server

linux

形態素解析
リンク
Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日キーワード抽出モジュールを作ってみた一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab
amayan 2007/03/08
algorithm

keyword

mecab

形態素解析

programming

perl

tool

キーワード抽出
リンク
1