[B! MeCab] asaokitanのブックマーク

きまぐれ日記: MeCab: 字種に基づくわかち書き

前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。日本語ほど字種が多い言語はありません。ひらがな、カタカナ、漢字、アルファベット、数字、記号..などなど。これらはわかち書きをする上で非常に重要な情報です。MeCab + ipadic の場合、未知語は字種に基づく発見的な手法 (heuristics)　で切り出しています。今回は、辞書はまったく使わず、この字種情報だけで分かち書きをしてみます。単純に「同じ字種のものをまとめて出力する」といった塩梅です。例によって、MeCab の辞書の構成のドキュメントはこちらにあります。基本的に 1. dic.csv (辞書ファイル) 2. matrix.def (連接ファイル) 3. char.def (文字種ファイル) 4. unk.def (未知語処理) 5. dicrc から辞書が構成されます。今回も

asaokitan 2006/05/07

MeCab

リンク

MecabのPythonバインディングを使ってみる

This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

asaokitan 2006/05/07

python
MeCab

リンク

ベイジアンフィルタ - Λάδι Βιώσας

MeCab＆形態素解析ネタの続きで、Pythonで簡易ベイジアンフィルタ作ってみました。ベイジアンフィルタって何ぞや？という方に簡単に説明すると、テキスト分類プログラムのことです。よくある利用方法として、あるメールが、スパムメールかそうでないのかの判別に使われたりします。ソースはコレです。ここのサイトの説明を参考にしました。アルゴリズムはPaul Graham方式を使っています。以前のコレはctypesを使ってMeCabを呼び出していたけど、今回はPython Bindingを使って書きました。さて、、、ベイジアンフィルタを試すには、フィルタに学習させる為のデータが必要です。しかし、ふつーにスパムメールたくさん、ノンスパムメールたくさん用意して実験してもいまいち面白くない。そこで、次のような実験方法を考えました。 Aさん、Bさんの書いた文章をフィルタ学習用データとして用意する。そし

asaokitan 2006/05/02

python
MeCab

リンク

404 Blog Not Found:perl - mecab-perl vs. Text::MeCab

2006年05月02日01:00 カテゴリLightweight Languages perl - mecab-perl vs. Text::MeCab これ見て先を越された! D-5 出張版・・・ということと、なんかMeCabのインターフェースが気に入らないので書きました、Text::MeCab。XSです。SWIGいりません（まぁ、最近はすでにSWIGで展開してあるバージョンが配布されてるけど）。変なtie()インターフェース使いません。だから速いです；P と思ったら、さらに # charsbar 『http://www.donzoko.net/cgi-bin/tdiary/20060302.html#p02 というものもありますが……』とあって、え、まかまかタン(なぜかタンづけ)がやってくれたの!? どんぞこ日誌(2006-03-02) できたのがこちらText-MeCab-0.0

asaokitan 2006/05/02

mecab
perl

リンク

ウェブリブログ：サービスは終了しました。

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

asaokitan 2006/04/05

リンク

形態素解析MeCab(和布蕪)をPerlから使ってみるゆうすけブログ/ウェブリブログ

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

asaokitan 2006/04/04

perl
MeCab

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

MeCabに関するasaokitanのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス