タグ

Mecabに関するChiseiのブックマーク (10)

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • Webページの自動カテゴライズ (nakatani @ cybozu labs)

    パストラックは、「社会」「政治」「スポーツ」などのカテゴリごとにページのランキングを見る機能があります。 パストラックの注目・人気・定番のページ一覧で右上のセレクトボックスからカテゴリを選ぶと、そのカテゴリの一覧が表示されます。 例: 「政治」の人気ページ一覧(人気ページ=昨日・今日あたりによく見られたページ)http://pathtraq.com/popular?category=Politics「スポーツ」の注目ページ一覧(注目ページ=ここウン時間によく見られたページ)http://pathtraq.com/popular?m=upcoming&category=Sports「車/二輪」の人気ページ一覧http://pathtraq.com/popular?category=Motor「/グルメ」の注目ページ一覧http://pathtraq.com/popular?m=upcomi

  • CentOS で構築する自宅サーバ : Postfix + bsfilter でスパムメール対策

    スパムメール、嫌ですね。特にインターネット歴の長い方ですと、大量のスパムメールに悩まされているのではないでしょうか? 最近では、プロバイダのメールサービスやフリーメールでもスパムメールをブロックする機能を提供しています。もちろん、自宅サーバ環境でもお金をかけずにスパムメールをブロックすることが可能です。 スパムメールを検出するソフト(スパムフィルタ)の中では、SpamAssassin が有名です。私も長らくこれを利用していましたが、日語に対応していないので特に日語のメールに対するスパム検出率に不満がありました。そこで、日の方が開発し、日語にも対応したスパムフィルタ bsfilter を採用するに至りました。ここではその bsfilter の導入方法を紹介します。 運用ポリシーの策定 bsfilter や SpamAssassin のような統計的手法を用いてスパムメールを検出するツー

    Chisei
    Chisei 2008/02/17
  • Blog - Mikula Beutl - SEO Consulting

    This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

    Blog - Mikula Beutl - SEO Consulting
    Chisei
    Chisei 2008/02/08
  • Making The Road Blog - さくらでMeCab PHP extension

    さくらでMeCab PHP extensionをインストールしたので,メモ(自分の環境がデフォルトとかなり違うので,再現性があるか分かりませんが) MeCabインストール ダウンロードはこちらから tar zxfv mecab-X.X.tar.gzcd mecab-X.X ./configure --prefix=$HOME/usr/local make make check make install

    Chisei
    Chisei 2008/02/07
  • MeCab PHP extension moduleを使ってみた

    3年ぐらい前に欲しいなーと思っていたMeCabのPHPモジュールが最近リリースされたようです。DBから取り出したレコードごとに形態素解析したいときなどはPHPから呼び出せると便利。 » Page2 MeCab extension 手元のマシンはmecabが0.90だったのですがconfigure時にmecab_new2のところでエラー。 configure: error: wrong MeCab library version or lib not found.[mecab-users 86] Re: C ライブラリで “Undefined symbol” となる関数がある 既知の問題だったので最新の0.91をコンパイルし直したらインストールできました。 サンプルのコードはソースの中にもありますがよりシンプルな例を以下に。 <?php dl('mecab.so'); $mecab = me

    Chisei
    Chisei 2008/02/07
  • MeCab の辞書構造と汎用テキスト変換ツールとしての利用

    $Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

    Chisei
    Chisei 2008/02/07
    『例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます』
  • Mecabのインストールと辞書のUTF-8化 - 森薫の日記

    Linux | 23:10 | UbuntuのMecab環境を整備します。まず、Mecabをパッケージからインストールします。 $ sudo apt-get install mecab IPA辞書のインストールデフォルトではJUMAN辞書を使って形態素解析をしますが、IPA辞書の方が精度が良いようです。http://d.hatena.ne.jp/mir/20070209/p3IPA辞書は以下のコマンドでインストールします。 $ sudo apt-get install mecab-ipadic IPA辞書をUTF-8に変換パッケージからインストールされるIPA辞書はEUC-JPで構築されているため、Ubuntuの文字コードをUTF-8に設定している場合はいろいろと不便です。以下のコマンドでIPA辞書をUTF-8に変換できます。 $ sudo /usr/lib/mecab/mecab-dic

    Chisei
    Chisei 2008/02/07
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    Chisei
    Chisei 2008/02/07
  • ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

    こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明

  • 1