タグ

mecabに関するjoan9のブックマーク (10)

  • mecab

    Downloadsmecab-0.4.0.tar.gz [browse] (Cabal source package)Package description (as included in the package) Maintainer's Corner Package maintainers HideyukiTanaka For package maintainers and hackage trustees edit package information Candidates No Candidates

  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う

    iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 WindowsiTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、 クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮 玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは 使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更は うまく

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • using API; - Yet Another MECAPI: MECAPIの高速版

    Yet Another MECAPI - MeCab Web Service MeCabのWebService, MECAPI を182倍高速にしてみました。(2.68qps → 488qps) 開発元のブログ:きまぐれ日記: MECAPIを182倍高速にしてみた MeCabの作者自身による高速版。apache moduleではなく自作HTTPServerを作って動かしているところがすごい。 JSONPにも対応。 たつを氏によるPerl実装のMECAPI。 MECAPI - MeCab Web Service (MeCab API) Trackback: http://usingapi.com/archives/143/trackback No Comments » コメントはお気軽にどうぞ Name (required) Mail (will not be published)

  • mimitako.net [13]

  • きまぐれ日記: MECAPIを182倍高速にしてみた

    MeCabのWebService, MECAPI を182倍高速にして<みました。(2.68qps → 488qps) http://api.chasen.org/mecapi/ - Perlによる実装はやめて、完全に C++ で書き直し - CGI ではなくて、C++ による自作 HTTPServer - mecab のプロセスを prefork することで永続化 たつをさんのオリジナルMECAPIの機能はまだ完全に実装しておらず、基的な機能しか提供しておりませんが、随時サポートしていきたいと思います。 補足: 実際はネットワークのレイテンシーがあるので、外部ホストから計測すると体感としては、10倍程度の 高速化だと思います。 オリジナルMECAPI: Server Software: Apache/2.0.53 Server Hostname: chasen.org Server P

  • どくでんぱのつくりかた - 要するに雑記。

    id:wiz-stargazer:20061210:1165720324を見て。 今のどくでんぱ。は、ゴーストのディレクトリにあるテキストを 汎用テキスト整形ルーチンに叩き込んで日語を抽出しているので、 \hの喋りも\uの喋りも区別がありません。 例えば、AYAやSATORIやKAWARIといった辞書形式に応じたエンジンを積んで、 辞書を読む際に、\hと\uを区別してモードを変え、それぞれで文章を出力すれば、 (\hの発話に含まれるキーワードで\u側の文章を生成する) \hと\u両方で掛け合いをするどくでんぱ。なんてのも作れるかもしれません。 良い機会ですので、日語文章の生成について少し知っていることを纏めてみます。 発話と反応 日語の文章を自動生成する方法は色々あります。 ここではおおざっぱに、「発話型」と「反応型」にわけて考えてみます。 「発話型」とは要するに、いきなりワケの分か

    どくでんぱのつくりかた - 要するに雑記。
  • [を] MeCabをPerlから使う

    MeCabをPerlから使う 2006-02-25-4 [Programming][NLP] NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。 解析スピードは ChaSen より速いし、なにより今もメンテされてるのが 素晴らしい。20%ルール!? Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer <http://mecab.sourceforge.jp/> 以下を取ってきてすんなりインストール。何のバッドノウハウもなし。 - mecab-0.90rc9.tar.gz - mecab-ipadic-2.7.0-2005

  • 1