You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
はじめに ちゃお・・・† 個人的にですが、最近はWindowsのPythonでMeCabを使う機会が増えてきました。しかし、WindowsでMeCabのPythonラッパーを入れるには、ソースをダウンロードしたりsetup.pyを書き換えたりコンパイラをインストールしたりしないといけないので、とても面倒です。 そこで、WindowsでもmacでもUbuntuでもpipで簡単にMeCabのPythonラッパーを使えるものを公開しました! https://pypi.org/project/mecab/ ※ 過去にmecab-python-windowsというものを公開しましたが、そちらは今後アップデートしないつもりなので、mecab-python-windowsを使っている人はこちらに乗り換えることを推奨します。 これは何? インストール時のOSによってふるまいを変えることで、一つのパッケージ
mecab-ipadic-NEologdをインストール mecab-ipadic-NEologdをインストールします。 これはWeb上の新語をデフォルトの辞書に追加したものです。 必須ではありませんが便利なので入れておきます。 以下のコマンドでインストールできます。 詳しくはGitHubページをみてください。 $ brew install git curl xz $ git clone --depth 1 git@github.com:neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ ./bin/install-mecab-ipadic-neologd -n
公式サイトに書いてあったsetup.pyを使う方法がうまく行かなかった。 ダメ元でpip searchしてみたらパッケージが見つかって、使ってみたらとりあえず動いたので共有。 Python 3.4.3 :: Anaconda 2.3.0 mecab 0.996 mecab-ipadic 102 $ python3 >>> import MeCab >>> mecab = MeCab.Tagger("-Ochasen") >>> print(mecab.parse("今日はいい天気ですね。")) 今日 キョウ 今日 名詞-副詞可能 は ハ は 助詞-係助詞 いい イイ いい 形容詞-自立 形容詞・イイ 基本形 天気 テンキ 天気 名詞-一般 です デス です 助動詞 特殊・デス 基本形 ね ネ ね 助詞-終助詞 。 。 。 記号-句点 EOS
はじめに 固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。 今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項 理論的な話は一切出てきません。理論を知りたい方は他を当たってください。 対象読者 固有表現抽出を少しは知っている方 固有表現抽出器を作ってみたい方 Pythonコードを読める方 固有表現抽出とは? ここでは、固有表現抽出の概要と方法について説明します。 概要 固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。 上記の文に含まれる固有表現を抽出すると人名と
Python3からMeCabを使う方法がWebを調べても見つけられなかったので自力で何とかした。ここに使えるようにするまでのメモをまとめます。 問題と解決方法 以下の問題が発生していました。 mecab-python: (GoogleCodeから落としてきたmecab-pythonのsetup.pyをpython3からbuild出来ない。) mecab: (初回のパース処理でnode.surfaceが空になる現象が発生する。) これに対してGoogleCodeのMeCabページにあるIssueのうち2件の修正を適用する事で解決させます。Python3への対応はmecab-pythonの修正のみで可能です。しかし、MeCab本体のバグを修正しなければPython上で使った時にパース処理でバグります。そのため、MeCab自体も修正パッチを当てて新たにビルドしたものをインストールして使います。
概要 国立情報学研究所Webサイトにある「ニコニコ大百科データ」(by 有限会社未来検索ブラジル)から、 MeCabの辞書を生成・適用する。 研究目的でテキストマイニングをするならこの方法もありかもしれない。 ※実行環境はLinuxMint13(Ubuntu12.04 LTS)です。 方法 01.ニコニコ大百科データを取得する。 http://www.nii.ac.jp/cscenter/idr/nico/nicopedia-apply.html ※head.zipをダウンロード・解凍する。 02.解凍後のheadフォルダと同じ階層に下記Pythonコードを配置する。 # -*- encoding: utf-8 -*- import os import csv import re def main(): #入力フォルダ名 pth = 'head' #出力ファイル名 wtnme = 'ncn
すんなり行かなかったのでメモしておく。 mecabはbrewでインストールすると楽だった。 (後述のmecab-pythonが上手くインストールできず、試行錯誤の過程でコンパイルして入れちゃったけど) こっからが本番。mecab-pythonのインストール。 普通にeasy_install https://mecab.googlecode.com/files/mecab-python-0.996.tar.gzとかやると、 clang: error: unknown argument: '-mno-fused-madd' [-Wunused-command-line-argument-hard-error-in-future] clang: note: this will be a hard error (cannot be downgraded to a warning) in the f
$ cd /var/tmp $ curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz $ tar zxfv mecab-0.996.tar.gz $ cd mecab-0.996 $ ./configure $ make $ sudo make install $ cd /var/tmp $ curl -O https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz $ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz $ cd mecab-ipadic-2.7.0-20070801 $ ./configure --with-charset=utf8 $ make $ sudo make install
Pythonで形態素解析をしたい時、とりあえずMeCabを使うときがある。ただこのMeCab、pip install MeCab みたいに1行書けばすぐに使える楽な物では無いので、他の環境で動かしたい時にやや面倒。何度か試行錯誤したのでメモ。 方針 Virtualenvを使う システムに apt-get install python-mecab で入れた物を使わない before_install: - sudo apt-get update -qq - wget http://ftp.sjtu.edu.cn/ubuntu/pool/universe/m/mecab/libmecab2_0.996-1.1_amd64.deb - sudo dpkg -i libmecab2_0.996-1.1_amd64.deb - wget http://ftp.sjtu.edu.cn/ubuntu/po
背景 過去にCentOS,OSXでmecab-pythonのインストールのチャレンジをしてうまく行った。 しかし、今回はCircleCI。CircleCIはUbuntu上で動くため、やっぱり環境が違うとうまく動きませんでした。キモは、標準でインストールされているmecabパッケージを消してソースからインストールすることです。mecabパッケージを入れたまま、mecab-pythonのbuildをするとコンパイルできずに失敗します。 設定手順 インストールスクリプト #!/bin/bash # Remove mecab sudo apt-get remove mecab # Install mecab cd /var/tmp curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz tar zxfv mecab-0.996.t
natto-py とは? natto-py は Python - MeCab の Foreign Function Interface (FFI) によるバインディングを提供する Python パッケージです。 Python 2 および 3 に対応し、コンパイラーが必要としない利点があります。*nix、OS X および Windows 上で利用可能です。 対応する Python バージョン natto-py は下記の Python 2 および 3 を利用できます。下記のバージョンは実証済みです。 Python 2.7 Python 3.2 Python 3.3 Python 3.4 MeCab をインストール まずは MeCab 0.996 をインストールします。 mecab-ipadic または mecab-jumandic のMeCab 用辞書も忘れずにインストールしましょう。 Win
形態素解析について 様々なユーザーの Tweet を収集して利用するパターンで最も多いのは、 Tweet 中に含まれる特定の単語を抽出して利用するパターンである。 今回は形態素解析器の MeCab を利用して、単語単位に分割して名詞、動詞、形容詞を抽出する。 Python で Twitter からの情報収集 (環境構築編) 環境構築等はこちら MeCabの出力形式 出力形式はオプションにより変わる。 * 'mecabrc': (デフォルト) * '-Ochasen': (ChaSen 互換形式) * '-Owakati': (分かち書きのみを出力) * '-Oyomi': (読みのみを出力) デフォルトだと 表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 という出力になる。 サンプルコード ある文を単語単位(表層形そのまま)に分割して、 全単語
課題 Python から MeCab の形態素解析の機能を利用可能にする。 手法 MeCab の Python バインディングをビルド/インストールする。 前提 対象: mecab-python-0.996.tar.gz 環境: Windows 8.1 64bit, Python 2.7, MeCab 0.996 内容 1. ビルド環境の構築 Visual Studio 2008 Express Edition with Service Pack 1 をインストールする。 Microsoft Windows SDK for Windows 7 and .NET Framework 3.5 SP1 をインストールする。 2. libmecab.lib と libmecab.dll の作成(MeCab のビルド) mecab-0.996.tar.gz(MeCabのソース)をダウンロードする。
MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。 制約付き解析 (部分解析)より 形態素境界の制約をつける 文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ
MeCab http://mecab.sourceforge.jp/ ココからインストール。MeCabには Python binding っていう便利なのがあるんだけど、Winだとどうも上手くコンパイル出来ない。あれこれ調べたところ、ココに、ctypes*1を利用したMeCabの使い方が書いてあったので、これを使うことにする。 ctypes ココからダウンロード。0.9.9.3はうまく動かなかったので、前のバージョンの0.9.6を使う。とりあえずこれでPythonからMeCabを使えるようになりました。 マルコフ連鎖 で、、、マルコフ連鎖アルゴリズムの説明やらサンプルが、ココとかココらへんにあったので参考にして、Pythonで書いてみた。 # -*- coding: sjis -*- from ctypes import * def sparse(s): # ライブラリの場所を指定 lib
ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います! parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。 わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、本当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。 コード import MeCab tagger = MeCab.T
修正履歴 2016/2/19 コードの修正・必要なファイルの更新 2016/2/19 トラブルシューティングの追加 はじめに そもそもWindowsでなぜ?という話があると思いますが、理由は一つ。Windowsには強力なIDEであるVisual Studioがあるからです。 コード補完、スニペット、デバッグ・・・・多くのメリットがあるIDEですが、いかんせんWindowsでの環境構築には難所が多く、Python関係だとビルドの問題で詰まることが多いようです。 理由は様々ですが、Unixのコマンドが通用しなかったり、ファイルパスの書き方が違ったりといったことがあげられます。 今回は、そんなハードルを乗り越え、自然言語処理屋さん御用達、MeCabのPythonライブラリを入れてみようという話です。 MeCabって? MeCabは、形態素解析ツール。形態素は意味の通る単語の最小ブロックといった感
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く