タグ

Mecabに関するrin1024のブックマーク (26)

  • php_mecab-0.3.0.tgzのコンパイルが通りません http://d.hatena.ne.jp/rsky/20071228/1198841049 PHP5.2.9からPHP5.3.0へアップデート後の症状なので PHP絡みで…

    php_mecab-0.3.0.tgzのコンパイルが通りません http://d.hatena.ne.jp/rsky/20071228/1198841049 PHP5.2.9からPHP5.3.0へアップデート後の症状なので PHP絡みで原因がありそうです. 原因やコンパイルを通す方法が分かりません,よろしくお願いします。 cc -I. -I/usr/local/src/php_mecab-0.3.0 -DPHP_ATOM_INC -I/usr/local/src/php_mecab-0.3.0/include -I/usr/local/src/php_mecab-0.3.0/main -I/usr/local/src/php_mecab-0.3.0 -I/usr/include/php -I/usr/include/php/main -I/usr/include/php/TSRM -I/u

    rin1024
    rin1024 2011/08/25
    php_mecab
  • SimString - A fast and simple algorithm for approximate string matching/retrieval

    A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl

    rin1024
    rin1024 2010/08/03
    類似文字列検索ライブラリ.
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
    rin1024
    rin1024 2010/06/30
    おおーすごい
  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • Re: mecab-0.94でmake checkエラー (mecab-users 243) - MeCab - OSDN

    Taku Kudo taku****@chase***** 2007年 3月 4日 (日) 00:15:12 JST 前の記事 [mecab-users 240] mecab-0.94でmake checkエラー 次の記事 [mecab-users 242] Re: UTF8 ファイル分析出力 記事の並び順: [ 日付 ] [ スレッド ] [ 件名 ] [ 著者 ] 工藤です 0.94 になって辞書作成やパラメータ学習用の regression test を追加しました. エラーを見ると,パラメータ学習用の regression test が死んでいるみたいです. 辞書作成や解析の regression test ではエラーが発生していません. パラメータ学習は浮動小数点が入るため,アーキテクチャによって 若干結果が変わる可能性があります.amd64 でパラメータ学習をしないの であれば

    Re: mecab-0.94でmake checkエラー (mecab-users 243) - MeCab - OSDN
    rin1024
    rin1024 2009/10/20
    make checkでエラーでてたけど一応大丈夫らしい
  • GoPython Blog ImportError: libmecab.so.1: cannot open shared object file: No such file or directory

    $ wget http://*****/~ $ tar zxfv mecab-python-***** $ cd mecab-python-**** $ python setup.py build $ su # python setup.py install # exit $ python >> import MeCab ************** ImportError: libmecab.so.1: cannot open shared object file: No such file or directory >> $ su # vi /etc/ld.so.conf /usr/local/lib # ldconfig # exit $ python >> import MeCab >> m = MeCab.Tagger() >> print m.parse("すももももももももの

    rin1024
    rin1024 2009/10/02
    libmecab.so.1: cannot open shared object file
  • Wikipedia Data Download Page

    ../ jawiki-latest-abstract.xml.gz 03-Mar-2024 13:56 267322074 jawiki-latest-abstract.xml.gz-rss.xml 03-Mar-2024 13:56 760 jawiki-latest-abstract1.xml.gz 03-Mar-2024 13:55 68599342 jawiki-latest-abstract1.xml.gz-rss.xml 03-Mar-2024 13:56 763 jawiki-latest-abstract2.xml.gz 03-Mar-2024 13:46 44585882 jawiki-latest-abstract2.xml.gz-rss.xml 03-Mar-2024 13:56 763 jawiki-latest-abstract3.xml.gz 03-Mar-20

  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

  • IPADIC(IPA辞書)とはなにものか?

    ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

    IPADIC(IPA辞書)とはなにものか?
  • mecab辞書にwikipediaのタイトル名を追加 - kokotech

    wikipediaのタイトルを追加しようとしたらいくつかハマったので。 環境はFedora10。 まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん!のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい    名詞,一般,*,*,*,*,けい,ケイ,ケイ おん    名詞,一般,*,*,*,*,おん,オン,オン !      記号,一般,*,*,*,*,!,!,! の      助詞,連体化,*,*,*,*,の,ノ,ノ せい    名詞,非自立,一般,*,*,*,せい,セイ,セイ で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t       * w       * i       * t       * t       * e      

    rin1024
    rin1024 2009/09/01
    wiki
  • Pythonでのキーワード抽出実装

    初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの文をテキストフ

    rin1024
    rin1024 2009/08/30
    キーワード抽出
  • MeCab - Browse Files at SourceForge.net

    Authentication Cloud faster, easier, and more user-friendly. Let customers access your online services without passwords and costly SMS fees. Nevis lets you wow your customers, partners, and employees with excellent authentication and authorization convenience. Nevis offers a single, all-encompassing identity and access management solution for all your identity use cases. With its comprehensive CI

    rin1024
    rin1024 2009/08/30
    各えくすてんしょn
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • Programming Magic is under construction

    Thank you for being patient. We are doing some work on the site and will be back shortly.

    Programming Magic is under construction
  • 形態素解析の基礎

    形態素解析の基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report  No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり,自然言語処理の最も基となる処理である.報告では,形態素解析に必要な技術形態素解析ツールについて述べる. 1  はじめに 近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日語においては, 文章を単語に分

  • Mecabはバインディングで3.1倍速くなる - kj-ki’s blog

    はじめに こないだIO.popenによるMecabの呼び出しを書きましたが,バインディングを利用した方法を書きます. こっちの方が速いのでおすすめ. バインディングのインストール sudo port install rb-mecab +utf8only MacPortsではたったこれだけ. 文字コードにはUTF-8を使うので+utf8onlyを指定しましょう. 実行例 サンプルとして,Rubyのホームページに載ってるテキストを100回Mecabを通してみます. require 'Benchmark' text = <<EOT Rubyは、手軽なオブジェクト指向プログラミングを実現するための種々の機能を持つオブジェクト指向スクリプト言語です。格的なオブジェクト指向言語であるSmalltalk、EiffelやC++などでは大げさに思われるような領域でのオブジェクト指向プログラミングを支援する

    Mecabはバインディングで3.1倍速くなる - kj-ki’s blog
  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ

  • はてなブログ

    太巻き会2023 -みんなで巻こうLONG太巻き- みんなで長い太巻きを巻いたときの記録です。こんくらいのどデカい太巻きを目指すぞー! [泉]東京都現代美術館コレクション展「MOTコレクション コレクションを巻き戻す 2nd」よりチラシとかあったら気分が上がるかなと思い、こないだのアフタヌーンティー会の前夜に…

    はてなブログ
  • TermExtractを使ってキーワード抽出 - TechMemo

    TermExtractを使ってキーワード抽出 トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン カテゴリ[Perl] TermExtractのMecabモジュールでキーワード抽出を行う。 まずはMecabのテキストを作る。 use MeCab; my $text = "私はももが好きです。"; my $mtext = getMecabText($text); sub getMecabText{ my ($text) = shift @_; my @arg = ($0,"Ochasen"); my $mecab = new MeCab::Tagger(\@arg); my $exdata = new TermExtract::MeCab; $text = $mecab->parse($text); return $text; } うんでTemrmExtract::Mecab

  • Perlメモ/MeCabモジュール - Walrus, Digit.

    以下で、現時点での最新0.96版のPPDファイルと、PPMコマンドでのインストール方法が公開されています。 http://namazu.asablo.jp/blog/2007/06/28/1611341 私が使用しているWindows+ActivePerl 5.8の環境では、ここに書かれているとおり以下を実行することでMeCab?モジュールをインストールできました。 ppm install http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd サンプルスクリプトを参考に、次のようなスクリプトを作成しました。 use MeCab; print $MeCab::VERSION, "\n\n"; my $sentence = "太郎 はこのを二郎を見た女性に渡した。"; my $tagger = new MeCab::Tagger(join " ",

    rin1024
    rin1024 2009/06/24
    Active Perl使ってMeCab触る方法