タグ

mecabに関するkadoppeのブックマーク (6)

  • 「似ている」を探そう

    今日から8月ですね!我が家のも夏毛に生え替わるようで、私も毛だらけです。志田です。 さて、今回は「似ている」を探したいと思います。なにかとなにかがどのくらい似ているのか、という情報があれば、それが役に立つシーンはたくさんありますよね。 ブログの似ている記事を探したり、趣味の似ているユーザを探したり、用途は様々です。 「何が似ているのか」という尺度にも様々あるように、類似度というのはいろいろな観点から調べることができます。 今回は、アシアルブログから似ている記事を探してみたいと思います。 手順としては、Mecabというライブラリを使って記事を形態素解析し、単語に分けます。 そして、元となる記事とその他の記事全体を見て、コサイン類似度という手法を用いて記事同士の類似度を測定し、似ている記事を3件見つけます。 (1) ブログ記事を取得する ブログ記事を取得し、ディレクトリに保存しておきます。

    「似ている」を探そう
  • PHPでMecab利用 - リハビリ日記

    環境情報(2009/01/05追加) CentOS5.2 / PHP 5.2.11 インストールからサンプルプログラム作成までにお世話になったサイト一覧 家サイト MeCab: Yet Another Part-of-Speech and Morphological Analyzer 参考サイト ウノウラボ PHPとMecabでキーワード自動リンクを実装する MeCab の辞書構造と汎用テキスト変換ツールとしての利用 Mecabのインストール CentOSはyumでインストールできなかったので、ソースからコンパイルを行った。インストール先は/usr/localとし、辞書ファイルはutf8のみとした。 ダウンロード 体:mecab-0.98.tar.gz 辞書ファイル:ipadic-2.7.0 体インストール # tar xvfz mecab-0.98.tar.gz # cd meca

    PHPでMecab利用 - リハビリ日記
  • PHPエクステンションのリポジトリ始めました - 讃容日記

    長らく放置しておりましたブログとPHP拡張のメンテをぼちぼち再開します。 で、復活第一弾のエントリはPiece Network 3のテーマとして、PHP 5.3のサポートとGitHub/PEARチャンネルの公開をしましたので、そのご報告をば。 現時点ではよく使われているっぽいMeCabエクステンションと Tokyo Cabinetエクステンションを公開しています。他のものも需要がありそうなものから順次追加していきます。 PHP 5.3対応 PHP 5.3から ZEND_BEGIN_ARG_INFO_EX() マクロにstatic修飾子が含まれるようになったため、static ZEND_BEGIN_ARG_INFO_EX(...) としていた箇所が軒並みエラーになっていたので、これを修正しました。 また、php_set_error_handling(), php_std_error_hand

    PHPエクステンションのリポジトリ始めました - 讃容日記
  • Page2

    LinkTree - HOME http://sadako.nobody.jp/ http://monodebank.nobody.jp/ http://okichi.xxxxxxxx.jp/ http://utaneko.gozaru.jp/ http://urananaon.atukan.com/ LinkTree -

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • MeCabで形態素解析してみた【PHP】 - Programming Magic

    まずはMeCabをインストールする。MeCabのインストールはapt-getでもできたのだが、apt-getでインストールされるMeCabのバージョンが0.93でMeCab extension 0.2.0が対応していなかったのと、apt-getでmecab-ipadicがインストールできなかったため、ソースからインストールすることにした。 「MeCabのページ」からmecabとmecab-ipadicをDLして、mecabの方からインストールする。このとき、makeやg++がなければ先にインストールしておく。 > apt-get install make g++ > tar xvfz mecab-0.97.tar.gz > cd mecab-0.97 > ./configure > make > make install 次に、mecab-ipadicをインストールする。デフォルトでは文字

  • 1