MeCabに関するasaokitanのブックマーク (6)

  • きまぐれ日記: MeCab: 字種に基づくわかち書き

    前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。 日語ほど字種が多い言語はありません。ひらがな、カタカナ、漢字、アルファベット、数字、記号..などなど。これらはわかち書きをする上で非常に重要な情報です。MeCab + ipadic の場合、未知語は字種に基づく発見的な手法 (heuristics) で切り出しています。 今回は、辞書はまったく使わず、この字種情報だけで分かち書きをしてみます。単純に「同じ字種のものをまとめて出力する」といった塩梅です。 例によって、MeCab の辞書の構成のドキュメントはこちらにあります。基的に 1. dic.csv (辞書ファイル) 2. matrix.def (連接ファイル) 3. char.def (文字種ファイル) 4. unk.def (未知語処理) 5. dicrc から辞書が構成されます。今回も

  • MecabのPythonバインディングを使ってみる

    This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

    MecabのPythonバインディングを使ってみる
  • ベイジアンフィルタ - Λάδι Βιώσας

    MeCab&形態素解析ネタの続きで、Pythonで簡易ベイジアンフィルタ作ってみました。 ベイジアンフィルタって何ぞや?という方に簡単に説明すると、テキスト分類プログラムのことです。よくある利用方法として、あるメールが、スパムメールかそうでないのかの判別に使われたりします。 ソースはコレです。ここのサイトの説明を参考にしました。アルゴリズムはPaul Graham方式を使っています。以前のコレはctypesを使ってMeCabを呼び出していたけど、今回はPython Bindingを使って書きました。 さて、、、ベイジアンフィルタを試すには、フィルタに学習させる為のデータが必要です。しかし、ふつーにスパムメールたくさん、ノンスパムメールたくさん用意して実験してもいまいち面白くない。 そこで、次のような実験方法を考えました。 Aさん、Bさんの書いた文章をフィルタ学習用データとして用意する。そし

    ベイジアンフィルタ - Λάδι Βιώσας
  • 404 Blog Not Found:perl - mecab-perl vs. Text::MeCab

    2006年05月02日01:00 カテゴリLightweight Languages perl - mecab-perl vs. Text::MeCab これ見て先を越された! D-5 出張版 ・・・ということと、なんかMeCabのインターフェースが気に入らないので書きました、Text::MeCab。XSです。SWIGいりません(まぁ、最近はすでにSWIGで展開してあるバージョンが配布されてるけど)。変なtie()インターフェース使いません。だから速いです;P と思ったら、さらに # charsbar 『http://www.donzoko.net/cgi-bin/tdiary/20060302.html#p02 というものもありますが……』 とあって、え、まかまかタン(なぜかタンづけ)がやってくれたの!? どんぞこ日誌(2006-03-02) できたのがこちらText-MeCab-0.0

    404 Blog Not Found:perl - mecab-perl vs. Text::MeCab
  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
  • 形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ
  • 1