[B! python][morphological-analysis] nabinnoのブックマーク

nabinno id:nabinno

pythonとmorphological-analysisに関するnabinnoのブックマーク (18)

GitHub - nullnull/simstring: A Python implementation of the SimString, a simple and efficient algorithm for approximate string matching.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
nabinno 2018/07/31
github

simstring

python

mecab

morphological-analysis

analytics
リンク
WindowsやmacやLinuxにpipでPython用MeCabバインディングをいれる - Qiita
はじめにちゃお・・・† 個人的にですが、最近はWindowsのPythonでMeCabを使う機会が増えてきました。しかし、WindowsでMeCabのPythonラッパーを入れるには、ソースをダウンロードしたりsetup.pyを書き換えたりコンパイラをインストールしたりしないといけないので、とても面倒です。そこで、WindowsでもmacでもUbuntuでもpipで簡単にMeCabのPythonラッパーを使えるものを公開しました！ https://pypi.org/project/mecab/ ※ 過去にmecab-python-windowsというものを公開しましたが、そちらは今後アップデートしないつもりなので、mecab-python-windowsを使っている人はこちらに乗り換えることを推奨します。これは何？インストール時のOSによってふるまいを変えることで、一つのパッケージ
nabinno 2017/08/11
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics

windows

pip

python
リンク
Python3からMeCabを使う - Qiita
mecab-ipadic-NEologdをインストール mecab-ipadic-NEologdをインストールします。これはWeb上の新語をデフォルトの辞書に追加したものです。必須ではありませんが便利なので入れておきます。以下のコマンドでインストールできます。詳しくはGitHubページをみてください。 $ brew install git curl xz $ git clone --depth 1 git@github.com:neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ ./bin/install-mecab-ipadic-neologd -n
nabinno 2017/03/29
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics

python
リンク
Python3でmecabを使う - Qiita
公式サイトに書いてあったsetup.pyを使う方法がうまく行かなかった。ダメ元でpip searchしてみたらパッケージが見つかって、使ってみたらとりあえず動いたので共有。 Python 3.4.3 :: Anaconda 2.3.0 mecab 0.996 mecab-ipadic 102 $ python3 >>> import MeCab >>> mecab = MeCab.Tagger("-Ochasen") >>> print(mecab.parse("今日はいい天気ですね。")) 今日キョウ今日名詞-副詞可能はハは助詞-係助詞いいイイいい形容詞-自立形容詞・イイ基本形天気テンキ天気名詞-一般ですデスです助動詞特殊・デス基本形ねネね助詞-終助詞。。。記号-句点 EOS
nabinno 2016/02/22
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python

python-3
リンク
【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita
はじめに固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項理論的な話は一切出てきません。理論を知りたい方は他を当たってください。対象読者固有表現抽出を少しは知っている方固有表現抽出器を作ってみたい方 Pythonコードを読める方固有表現抽出とは？ここでは、固有表現抽出の概要と方法について説明します。概要固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。上記の文に含まれる固有表現を抽出すると人名と
nabinno 2016/02/04
qiita

python

tutorial

mecab

morphological-analysis

natural-language-processing

machine-learning
リンク
MeCabをPython3上から使えるようにする - Qiita
Python3からMeCabを使う方法がWebを調べても見つけられなかったので自力で何とかした。ここに使えるようにするまでのメモをまとめます。問題と解決方法以下の問題が発生していました。 mecab-python: (GoogleCodeから落としてきたmecab-pythonのsetup.pyをpython3からbuild出来ない。) mecab: (初回のパース処理でnode.surfaceが空になる現象が発生する。) これに対してGoogleCodeのMeCabページにあるIssueのうち2件の修正を適用する事で解決させます。Python3への対応はmecab-pythonの修正のみで可能です。しかし、MeCab本体のバグを修正しなければPython上で使った時にパース処理でバグります。そのため、MeCab自体も修正パッチを当てて新たにビルドしたものをインストールして使います。
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python-3

python
リンク
ニコニコ大百科データからMeCab辞書を生成する - Qiita
概要国立情報学研究所Webサイトにある「ニコニコ大百科データ」(by 有限会社未来検索ブラジル)から、 MeCabの辞書を生成・適用する。研究目的でテキストマイニングをするならこの方法もありかもしれない。 ※実行環境はLinuxMint13(Ubuntu12.04 LTS)です。方法 01.ニコニコ大百科データを取得する。 http://www.nii.ac.jp/cscenter/idr/nico/nicopedia-apply.html ※head.zipをダウンロード・解凍する。 02.解凍後のheadフォルダと同じ階層に下記Pythonコードを配置する。 # -*- encoding: utf-8 -*- import os import csv import re def main(): #入力フォルダ名 pth = 'head' #出力ファイル名 wtnme = 'ncn
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python

niconico
リンク
mecab-pythonをMacにインストールする - Qiita
すんなり行かなかったのでメモしておく。 mecabはbrewでインストールすると楽だった。 (後述のmecab-pythonが上手くインストールできず、試行錯誤の過程でコンパイルして入れちゃったけど）こっからが本番。mecab-pythonのインストール。普通にeasy_install https://mecab.googlecode.com/files/mecab-python-0.996.tar.gzとかやると、 clang: error: unknown argument: '-mno-fused-madd' [-Wunused-command-line-argument-hard-error-in-future] clang: note: this will be a hard error (cannot be downgraded to a warning) in the f
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

mecab-python

python

installation
リンク
CentOSにmecab-pythonをインストールする - Qiita
$ cd /var/tmp $ curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz $ tar zxfv mecab-0.996.tar.gz $ cd mecab-0.996 $ ./configure $ make $ sudo make install $ cd /var/tmp $ curl -O https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz $ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz $ cd mecab-ipadic-2.7.0-20070801 $ ./configure --with-charset=utf8 $ make $ sudo make install
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

centos

mecab-python

python

installation
リンク
travisでpython-mecabを動かしたい時の設定 - Qiita
Pythonで形態素解析をしたい時、とりあえずMeCabを使うときがある。ただこのMeCab、pip install MeCab みたいに1行書けばすぐに使える楽な物では無いので、他の環境で動かしたい時にやや面倒。何度か試行錯誤したのでメモ。方針 Virtualenvを使うシステムに apt-get install python-mecab で入れた物を使わない before_install: - sudo apt-get update -qq - wget http://ftp.sjtu.edu.cn/ubuntu/pool/universe/m/mecab/libmecab2_0.996-1.1_amd64.deb - sudo dpkg -i libmecab2_0.996-1.1_amd64.deb - wget http://ftp.sjtu.edu.cn/ubuntu/po
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

travis

python-mecab

python
リンク
CircleCIでmecab-pythonをインストールする - Qiita
背景過去にCentOS,OSXでmecab-pythonのインストールのチャレンジをしてうまく行った。しかし、今回はCircleCI。CircleCIはUbuntu上で動くため、やっぱり環境が違うとうまく動きませんでした。キモは、標準でインストールされているmecabパッケージを消してソースからインストールすることです。mecabパッケージを入れたまま、mecab-pythonのbuildをするとコンパイルできずに失敗します。設定手順インストールスクリプト #!/bin/bash # Remove mecab sudo apt-get remove mecab # Install mecab cd /var/tmp curl -O https://mecab.googlecode.com/files/mecab-0.996.tar.gz tar zxfv mecab-0.996.t
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

circleci

mecab-python

python
リンク
Python の MeCab バインディング natto-py を使う - Qiita
natto-py とは？ natto-py は Python - MeCab の Foreign Function Interface (FFI) によるバインディングを提供する Python パッケージです。 Python 2 および 3 に対応し、コンパイラーが必要としない利点があります。*nix、OS X および Windows 上で利用可能です。対応する Python バージョン natto-py は下記の Python 2 および 3 を利用できます。下記のバージョンは実証済みです。 Python 2.7 Python 3.2 Python 3.3 Python 3.4 MeCab をインストールまずは MeCab 0.996 をインストールします。 mecab-ipadic または mecab-jumandic のMeCab 用辞書も忘れずにインストールしましょう。 Win
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python

natto-py
リンク
Python で Twitter から情報収集 (MeCab による形態素解析編) - Qiita
形態素解析について様々なユーザーの Tweet を収集して利用するパターンで最も多いのは、 Tweet 中に含まれる特定の単語を抽出して利用するパターンである。今回は形態素解析器の MeCab を利用して、単語単位に分割して名詞、動詞、形容詞を抽出する。 Python で Twitter からの情報収集 (環境構築編) 環境構築等はこちら MeCabの出力形式出力形式はオプションにより変わる。 * 'mecabrc': (デフォルト) * '-Ochasen': (ChaSen 互換形式) * '-Owakati': (分かち書きのみを出力) * '-Oyomi': (読みのみを出力) デフォルトだと表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音という出力になる。サンプルコードある文を単語単位(表層形そのまま)に分割して、全単語
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python

x
リンク
PythonからMeCab - Qiita
課題 Python から MeCab の形態素解析の機能を利用可能にする。手法 MeCab の Python バインディングをビルド／インストールする。前提対象: mecab-python-0.996.tar.gz 環境: Windows 8.1 64bit, Python 2.7, MeCab 0.996 内容 1. ビルド環境の構築 Visual Studio 2008 Express Edition with Service Pack 1 をインストールする。 Microsoft Windows SDK for Windows 7 and .NET Framework 3.5 SP1 をインストールする。 2. libmecab.lib と libmecab.dll の作成（MeCab のビルド） mecab-0.996.tar.gz（MeCabのソース）をダウンロードする。
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python
リンク
PythonでMeCabの制約付き解析を使う - Qiita
MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、それを満たすように解析する機能です。たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。制約付き解析 (部分解析)より形態素境界の制約をつける文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python
リンク
MeCabとPythonで遊んでみたメモ - Λάδι Βιώσας
MeCab http://mecab.sourceforge.jp/ ココからインストール。MeCabには Python binding っていう便利なのがあるんだけど、Winだとどうも上手くコンパイル出来ない。あれこれ調べたところ、ココに、ctypes*1を利用したMeCabの使い方が書いてあったので、これを使うことにする。 ctypes ココからダウンロード。0.9.9.3はうまく動かなかったので、前のバージョンの0.9.6を使う。とりあえずこれでPythonからMeCabを使えるようになりました。マルコフ連鎖で、、、マルコフ連鎖アルゴリズムの説明やらサンプルが、ココとかココらへんにあったので参考にして、Pythonで書いてみた。 # -*- coding: sjis -*- from ctypes import * def sparse(s): # ライブラリの場所を指定 lib
nabinno 2016/01/25
mecab

morphological-analysis

natural-language-processing

machine-learning

python
リンク
PythonでのMeCabを速くするtips - Qiita
ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います！ parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、本当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。コード import MeCab tagger = MeCab.T
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

python
リンク
64bit Windows + python 2.7 + MeCab 0.996　な環境をつくる - Qiita
修正履歴 2016/2/19 コードの修正・必要なファイルの更新 2016/2/19 トラブルシューティングの追加はじめにそもそもWindowsでなぜ？という話があると思いますが、理由は一つ。Windowsには強力なIDEであるVisual Studioがあるからです。コード補完、スニペット、デバッグ・・・・多くのメリットがあるIDEですが、いかんせんWindowsでの環境構築には難所が多く、Python関係だとビルドの問題で詰まることが多いようです。理由は様々ですが、Unixのコマンドが通用しなかったり、ファイルパスの書き方が違ったりといったことがあげられます。今回は、そんなハードルを乗り越え、自然言語処理屋さん御用達、MeCabのPythonライブラリを入れてみようという話です。 MeCabって？ MeCabは、形態素解析ツール。形態素は意味の通る単語の最小ブロックといった感
nabinno 2016/01/25
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

windows

python
リンク
1