We'll be back soon! Our site is currently undergoing maintenance. Please check back later.

MeCab 用の各種スクリプト言語 (perl, ruby, python, Java) のバインディングがあったので、ためしに python-mecab をインストールしてみた。 事前準備 Python モジュールをビルドするので python-dev パッケージが必要。 sudo aptitude install python-dev ダウンロード wget http://mecab.googlecode.com/files/mecab-python-0.993.tar.gz インストール まずは MeCab をインストール。 MeCabのインストール方法 - tatsuyaoiw.hatenablog.com mecab-python のインストール $ tar zxvf mecab-python-0.993.tar.gz $ cd mecab-python-0.993 $ pyth
日本語の文章を単語に分割するには形態素解析を使います。日本語の形態素解析には、ChaSen、MeCab、Yahoo!形態素解析などがあります。ナイーブベイズを用いたブログ記事の自動分類(2010/7/3)でMeCabをPythonから使う方法を簡単にまとめましたが、MeCabはよく使うので再度まとめ直して独立したエントリにしました。Yahoo!形態素解析の使い方は、Yahoo!形態素解析API(2009/4/15)で書きました。 Windowsへの導入方法 MeCabは高性能な形態素解析モジュールでPython、 Ruby、Perl、Javaなどさまざまな言語から使えます。Mac OS XとLinuxでは簡単にコンパイルしてインストールができるのですが、WindowsではMinGWやVisual Studioのインストール、コードの修正が必要でかなり面倒くさい。そこで、Pythonモジュー
このところ、一度海外に出て働いてみたい、というエンジニアの方や、通信およびITで管理業務などに関わる方から相談を受けることがあります。 通信やITは世界中どこに行ってもやることは同じなので、色々な国を回って仕事しやすい職種なのですが、はやり、他の国でも食べて行ける人、食べて行けない人というのはいます。 簡単に言うと、外でも食べて行ける人は「自分で手を動かして何かできる人」です。 コーディングできる、設計できる、管理の仕組みを考えられる、コストカットした機材の調達の仕組みを考えられる、人員管理がうまい、プロジェクト管理できる、監査の仕組みやドキュメントを作れる、戦略を作って実行できる、という様な「自分で何かができる」人です。 反対に、「これは食べて行けない」という典型例。それは、日本国内の大手ベンダやユーザー企業勤務で、下請けや孫請けへの「丸投げ」しかできない「エンジニアもどき」や「SEとい
忙しいように見えて、実はいちばん自由な時間がある20代。大勢の人と会う、映画を観るなど、人生を変えるきっかけはいくつかあるが、そのうちの1つは本を読むこと。時間がないことを読めない理由にせず、自分の栄養になりそうな本に出合うことをおすすめします。 この連載は書籍『20代にしておきたい17のこと』(だいわ文庫)から抜粋、再編集したものです。 20代はいろいろと迷い、悩んでいるうちに、一瞬にして過ぎていきます。若さからくる希望にあふれ、ワクワクしながら自分の夢に向かうことができます。その一方で、感情という波に振り回されて落ち込んだり、自分を嫌いになったりして、時には絶望を感じることもあることでしょう。たとえどんな状態でも、それらはすべて人生の栄養になっていきます。20代という瞬間を、精いっぱい楽しんで過ごしてください。 ベストセラー作家の本田健が「20代にやっておけばよかった」と思うことを、3
例えば「ウォークマン」を形態素解析器にかけると、mecabやChasenの場合だと、 「ウォーク|マン」と分けてしまう。 多くの場合、連接する名詞をくっつけて複合名詞とすればうまくいくけど、例外もたくさんある。 単純に連接名詞をとるだけだと、「世界最高新記録並の早さ」を「世界最高新記録並|の|早さ」と分けてしまう。 「世界最高新記録並」は確かにひとつの名詞と呼べそうではあるけど、なんか気持ち悪いです。 つまりどこで区切るのが適切かをコンピュータに自動的に判定させるのは難しいわけなんですが、 そこでwikipediaを使います。 wikipediaの各ページは人手で作られているため、その単語(複合名詞)のページが存在すること自体が、ひとつの単語として認めるかどうかを判断する大きな材料になります。 おまけにwikipediaで複合名詞判定(名詞判定でもある)を行っていれば、その後の処理で例えば
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
mecab + PHP で形態素解析をやってみたときのメモです。Yahoo!さんの日本語形態素解析API や mecab PHP 用の拡張モジュールもありますが、windows vista PC にインストールした mecab を直接使用し、その結果をPHPでパースして出現頻度を算出する、ということをやってみました。 - ※もしかしてはまった人も?? 手元の Windows Vista PC では、mecab を 「C:\Program Files」フォルダ以下にインストールしたところ、mecab を実行できませんでした。「C:\myapp\mecab」のようにスペースを含まないフォルダにインストールしたら実行できました。 - 参考にしたのは以下の人力検索。 PHPについて質問致します。 形態素解析を行うにあたっていくつかの形態素解析エンジンを比較していった結果、 MeCab(http:/
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog ※デベロッパー向け「検索API」は、2013年8月14日をもちまして提供を終了いたします。 詳細はこちらをご覧ください。(追記) Yahoo!検索チームです。 現在提供中の下記6つのAPIにつきまして、不正利用対策並びにサービスの品質向上のため一度提供を停止し、提供するAPIの再編成を行います。 ウェブ検索API 画像検索API 動画検索API 関連検索ワードAPI アップグレード版ウェブ検索API アップグレード版画像検索API 2013年3月頃を目途に、上記APIの従来のリクエストURLは使えなくなりますのでご注意ください。 停止する日付の詳細は2013年1月公開予定の新APIの仕様と共に連絡させていただきます。 新APIでは
※ユーザ登録は無料です. 本電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 掲載されているコンテンツには無料のものと有料のものがあります。有料コンテンツのご購入はクレジットカード決済のみとなります。 領収書をご希望の方は「電子図書館専用領収書発行依頼」(送信フォーム)にてご連絡ください。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、本会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く