タグ

mecabに関するzee8のブックマーク (6)

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

    こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明

    zee8
    zee8 2008/01/08
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    zee8
    zee8 2007/06/23
  • 新規

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

    zee8
    zee8 2007/06/11
  • MeCab extensionを使ってTwitterで流行っているキーワードをクラウド化 - Do You PHP はてブロ

    ほとんどMeCab extension使いたさにあれこれこじつけた感ありありですが。。。 MeCabはオープンソースとして公開されている形態素解析エンジンの1つで、GPLもしくはLGPL/BSDライセンスの下に公開されています。他の形態素解析エンジンとしては、KAKASIやChaSenなどが知られていますね。 http://mecab.sourceforge.net/ で、PHPの拡張モジュールとしてはPage2で公開されているものがあります。 http://page2.xrea.jp/#php_mecab GitHub - rsky/php-mecab: MeCab binding for PHP これを使って、Twitterで流行っているキーワードをクラウド化するコードを書いてみました。なお、CSSはタグクラウドのスタイルを考える - collisions.dotimpac.toを参考

    MeCab extensionを使ってTwitterで流行っているキーワードをクラウド化 - Do You PHP はてブロ
    zee8
    zee8 2007/06/08
  • 新規

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

    zee8
    zee8 2007/04/24
  • 1