[B! mecab] dannのブックマーク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

dann 2011/05/16

mecab

リンク

mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ

（インストールの仕方などはほかの人がいっぱい説明してくれているので割愛）どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に「wikipediaとhatenaキーワードをユーザ辞書として利用する」ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c

dann 2010/02/26

mecab

リンク

2007-12-27 - 森薫の日記

Linux | 23:10 | UbuntuのMecab環境を整備します。まず、Mecabをパッケージからインストールします。 $ sudo apt-get install mecab IPA辞書のインストールデフォルトではJUMAN辞書を使って形態素解析をしますが、IPA辞書の方が精度が良いようです。http://d.hatena.ne.jp/mir/20070209/p3IPA辞書は以下のコマンドでインストールします。 $ sudo apt-get install mecab-ipadic IPA辞書をUTF-8に変換パッケージからインストールされるIPA辞書はEUC-JPで構築されているため、Ubuntuの文字コードをUTF-8に設定している場合はいろいろと不便です。以下のコマンドでIPA辞書をUTF-8に変換できます。 $ sudo /usr/lib/mecab/mecab-dic

dann 2008/11/14

リンク

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

$Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できますファイル単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル単語辞書ですエントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

dann 2008/01/13

mecab

リンク

きまぐれ日記: ルー語変換を MeCab だけで実現

巷で話題のルー語変換．周りにこういうしゃべり方をする人がいるからかもしれませんが，爆笑しました中身は，MeCab -> EDICT -> Bilingual Emacspeak だそうです．単純な単語置換なので，MeCab を汎用テキスト変換ツールとして利用すればまったく同じことが MeCab だけで実現できます．やってることは単純で, MeCab の辞書の品詞フィールドをルー語にした辞書を作るだけです．対象のルー語がない場合は単語そのものを品詞に設定します．通常は「入力文字列 -> 品詞列」の変換が行われます．上記のような辞書を作ると，品詞の部分がすべてルー語に置き換わって「入力文字列 -> ルー語文字列」の変換が実現されます．しかも単語のつながりやすさや，出現しやすさは上記のような辞書を作っても CSV カラムの 2,3,4 カラム目に残っているので，原理的には M

dann 2008/01/13

リンク

Text::MeCab::Dictでカスタム辞書 - D-6 [相変わらず根無し]

Text::MeCab::Dictでカスタム辞書ちょっとリリースそのものでバタバタしてしまいましたが、Text::MeCabを使って、mecabのカスタム辞書に語句を比較的容易に追加できるようにしました。例はText::MeCab 0.20004に同梱されているeg/add_custom.plを参照してください。自分の場合はちょっと人名をがばっと追加したかったのでAcme::Actor::JA（codereposのみ -- CPANにはアップしてません）とText::MeCab::Dictを使って３０００人程の人名を追加してやりました。これをすると何がいいかというと、これまでだとものすごく有名な人の名前で検索する場合とかに「姓」「名」に名前が分けられてしまっていたところがその名前全体をひとつの語句として認識してくれるようになります。 # 追加前 shell > 堂本光一堂本名詞,

dann 2008/01/11

mecab
perl

リンク

GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー！古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

dann 2008/01/10

mecab
php

リンク

83's : MeCabの辞書作成補助

形態素解析器MeCabの辞書を自分で作る場合、動詞や形容詞など活用する品詞については自分で活用を書かなければいけないんですが、激しく面倒なのでこれを自動化するやつを作ってみた。（　・∀・）つ[katsuyou.tar.gz] このプログラムを使うには、別途ローマ字ひらがな変換ライブラリ suikyoと、茶筌に（多分）付属しているcforms.chaが必要です。まー基本的にはcforms.chaでなくても、同じフォーマットで、かつ活用形の中に「基本形」が入っていれば動くはずです。あとRubyも必須です。 katsuyou.rbは、入力されたMeCabの辞書の中で活用できるものがあるとそれを活用展開します。だからあらかじめ1つだけ書いておきます。ちなみにフォーマットはこう。表層形,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音例

dann 2007/07/21

mecab

リンク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

dann 2007/06/24

mecab

リンク

はてなブログ | 無料ブログを作成しよう

うまくいかない日に仕込むラペ「あぁ、今日のわたしダメダメだ…」そういう日は何かで取り返したくなる。長々と夜更かしして本を読んだり、刺繍をしたり…日中の自分のミスを取り戻すが如く、意味のあることをしたくなるのです。うまくいかなかった日のわたしの最近のリベンジ方法。美味しいラペを…

dann 2007/03/11

リンク

http://www.google.com/codesearch?hl=en&q=+Tokenizer::MeCab+show:aiiV8hFIxRI:_hvQOOiWi6A:CKnK-cV3LYQ&sa=N&cd=1&ct=rc&cs_p=http://spamassassin.jp/download/package/debian/spamassassin_3.1.4-1.tar.gz&cs_f=spamassassin-3.1.4/debian/spamassassin-3.1.4-normalize

dann 2007/03/11

リンク

MeCab - HTML::TagCloud

dann 2006/11/09

リンク

形態素解析MeCab(和布蕪)をPerlから使ってみるゆうすけブログ/ウェブリブログ

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

dann 2006/10/23

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

mecabに関するdannのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス