タグ

*linuxとMeCabに関するttaaのブックマーク (4)

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • Phactory: MeCabにユーザ辞書を追加する方法

    MeCabの辞書登録方法には、ipadicなどのシステム辞書を一気に更新してしまう方法と ユーザ辞書を追加で登録する方法があります。/usr/local/etc/mecabrcの編集権限が あるならば、いつでも追加登録する辞書を切り替えられる点で後者の方が楽でしょう。 辞書の作成方法については、家の 解説サイトを見てください。ここでは、以下の例(hoge.csv)を追加用ファイルとして用います。 【hoge.csv】 AOC,-1,-1,3049,名詞,固有名詞,一般,*,*,*,AOC,AOC,AOC AOCホールディングス,-1,-1,3013,名詞,固有名詞,一般,*,*,*,AOCホールディングス,AOCホールディングス,AOCホールディングス AOCワインの一覧,-1,-1,3016,名詞,固有名詞,一般,*,*,*,AOCワインの一覧,AOCワインの一覧,AOCワインの

  • Text::MeCab を x86_64 環境でインストールする方法

    DMAKI氏による MeCab の Perl モジュールが CPANにアップロードされたようです。SWIG で生成されたものより高速に動作するようです。こんなに差が出るとは正直驚きです。 MeCab::Node の iterator をまわして要素を取りだす処理は、SWIG の場合 tie hash になったり、正直遅いと想像していたのですが、お見事です。 mecab 標準の mecab-perl より高速とのことで、モジュールの安定性を待っている間にすっかり忘れてしまった Text::MeCab ですが、突然思い出したので使ってみようかと思いインストールしてみたところ、make test にてエラー。 う〜ん・・・たぶん x86_64 環境だからだろうと推測し情報集め。 PERL_DL_NONLAZY=1 /usr/local/bin/perl "-MExtUtils::Command:

  • 形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ
  • 1