はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia『人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー
MeCab http://mecab.sourceforge.jp/ ココからインストール。MeCabには Python binding っていう便利なのがあるんだけど、Winだとどうも上手くコンパイル出来ない。あれこれ調べたところ、ココに、ctypes*1を利用したMeCabの使い方が書いてあったので、これを使うことにする。 ctypes ココからダウンロード。0.9.9.3はうまく動かなかったので、前のバージョンの0.9.6を使う。とりあえずこれでPythonからMeCabを使えるようになりました。 マルコフ連鎖 で、、、マルコフ連鎖アルゴリズムの説明やらサンプルが、ココとかココらへんにあったので参考にして、Pythonで書いてみた。 # -*- coding: sjis -*- from ctypes import * def sparse(s): # ライブラリの場所を指定 lib
これから自然言語処理をかじっていこうと思うので, 今回は日本語を単語ごとに分解してくれる「形態素解析エンジン」をPythonで使ってみました. フリーで使える形態素解析エンジンとしては, Yahoo!JapanのAPIとMeCab(めかぶ)というもの が一般的らしく,今回はオフラインでも使えるMeCabを利用します. Windowsにおけるmecab-pythonのインストール方法 MeCabの導入はココを参考にさせてもらいました. 具体的には以下の手順で行います. まずmecab-0.98.exeをインストール.(辞書の形式はutf-8を選択) そしてlibmecab-1.dll、MeCab.py、MeCab.pydをパッケージフォルダにコピーする. [注]パッケージフォルダはPython2.6ならC:\Python26\Lib\site-packages テストコード #coding:
日本語の文章をコンピュータで色々いじるときに, 必ずと言っていいほどよく使うのが形態素解析器. スペースなどの明示的な区切りの無い日本語を単語に分割してくれるツールです. 中でもMeCabが非常に有名で,さまざまなところで使われています. MeCabはいろいろな言語から呼び出すことができます. 自然言語処理の分野ではPythonが人気のようですね.僕も使っています. しかし,MeCabをPythonから使う場合,注意する点がいくつかあります. そこにハマっている後輩を見かけたので,文章として残しておくことにします. Python2系が対象です(3系はよくわからない). 注意するのは以下の二点です. MeCabに渡す文字列はencode,戻ってきた文字列はdecodeする MeCabに渡した文字列は必ず変数に入れておく EncodeとDecode Python2系の文字列には,バイト列として
日本語の文章を単語に分割するには形態素解析を使います。日本語の形態素解析には、ChaSen、MeCab、Yahoo!形態素解析などがあります。ナイーブベイズを用いたブログ記事の自動分類(2010/7/3)でMeCabをPythonから使う方法を簡単にまとめましたが、MeCabはよく使うので再度まとめ直して独立したエントリにしました。Yahoo!形態素解析の使い方は、Yahoo!形態素解析API(2009/4/15)で書きました。 Windowsへの導入方法 MeCabは高性能な形態素解析モジュールでPython、 Ruby、Perl、Javaなどさまざまな言語から使えます。Mac OS XとLinuxでは簡単にコンパイルしてインストールができるのですが、WindowsではMinGWやVisual Studioのインストール、コードの修正が必要でかなり面倒くさい。そこで、Pythonモジュー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く