[B! mecab] delegateのブックマーク

Python3で形態素解析エンジンMeCabを使ってみた

形態素解析エンジンMeCabをPython3から使ってみましたのでご紹介します。環境 macOS 10.13.6 Python 3.6.4 準備 MeCabと辞書と、mecab-python3をインストール $ brew install mecab mecab-ipadic git curl xz $ pip install mecab-python3 mecab-ipadic-NEologdのインストール標準の辞書だとEC2とかS3とかうまく分かち書きができなかったのでWeb上の新語が追加されたシステム辞書 mecab-ipadic-NEologd もインストールしました。インストール方法の詳細は mecab-ipadic-NEologd : Neologism dictionary for MeCab を確認してみてください。 $ git clone --depth 1 git@

delegate 2018/08/18

python
MeCab

リンク

Go言語でMeCabを使う - 人工知能してみる

こんにちは。機械学習系はPythonにライブラリが偏っていることもあり圧倒的にPython一択ではあるのですが処理が遅いのが問題です。 Cythonって手もありますがビジネスで使うってなるとRubyとかGoで使えた方がいいよなーと思ってます。そこでGoの勉強も兼ねて自然言語処理の基本MeCabで分かち書きをしてみました。結構苦労したので書いておきます。使ったラッパー Goで使えるMeCabのラッパーはいくつかあるのですが一番簡単に動かせたのが下記のレポジトリのラッパーです。 github.com インストール使い方はGitHubのREADMEに書いてあるとおりなのですが、事前にMeCabが入っていれば下記で終わりです。 $ export CGO_LDFLAGS="`mecab-config --libs`" $ export CGO_CFLAGS="-I`mecab-config

delegate 2017/12/08

golang
MeCab

リンク

MeCab（形態素解析）をPythonから２分で使えるようにする方法

※サンプル・コード掲載あらすじ Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。使用した環境 Ubuntu 16.04python3、pipはインストールされていると仮定＊インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。 MeCabのインストール（１分以内）コマンドを打ち間違えなければ、完了まで１分かかららず、ご活用いただけるはずです。 MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。 Me

delegate 2017/08/02

リンク

【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート

負のオーラを自動検出したい前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。前回のエントリでも言いましたが、著作権侵害モノ以外にも、「残しておくとまずいツイート」は色々ある可能性があり、たとえば誹謗中傷の類いがあるかと思います。誹謗中傷ツイートを自動抽出する方法はにわかには思いつきませんが、たぶん「クソ」とか「死ね」とか「バカ」とかそういう悪口の辞書が必要になりそうです。ところで、言語データの分析手法として、単語ごとに感情特性を評価した辞書というものがあちこちで作られていまして、これを使ってツイートがどのような感情を帯びているか分析するということが、よくやられています。Yahoo!がそういうツールを提供してたりもします（参考リンク）。 Yahoo!のリ

delegate 2017/05/08

リンク

日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推

delegate 2016/05/11

リンク

Ubuntu14.04にpyenv,Anaconda,MeCabをインストールしPython3環境構築

Anacondaで入れたPython3からMeCabを使いたい。 Vagrant上のUbuntu14.04に構築する。目次 VagrantでUbuntu14.04環境を作成pyenvでAnacondaをインストールMeCabをインストールmecab-python3をインストール1. VagrantでUbuntu14.04環境を作成こちらのサイトから、Ubuntu14.04のboxを追加。色々あったけどOfficialにした。 vagrant box add ubuntu1404 https://cloud-images.ubuntu.com/vagrant/trusty/current/trusty-server-cloudimg-amd64-vagrant-disk1.boxVagrantfileの作成。 mkdir ubuntu cd ubuntu vagrant init ubu

delegate 2016/04/01

リンク

さくらVPSにMeCabをインストールしてPHPから利用（CentOS6.4+PHP5.3.3/5.4.2） - 青春B■雑記blog‐青酸カリカラメルシロップ味‐

サーバ：さくらVPS OS：CentOS6.4 PHP：5.3.3（5.4.2でも同様でした） MeCab：0.996 IPAdic：2.7.0 php-mecab：0.5.0 文字コード：UTF-8 本記事ではディレクトリ構成がデフォルトのままであることを前提に進めていますので、構成をいじっている方はそれに合わせて変更してください。さくらVPSへのMeCabインストールを取り上げたblog記事はすでにいくらでもあるのですが、バージョンが古かったり環境が微妙に違っていたりもするので、こうして新しい情報を掲載するのも、まあ、意味があるのではないかと。

delegate 2015/08/31

リンク

SQLite Full Text Search with MeCab - mynote

はじめに† SQLiteの全文検索の拡張FTSは、まだ実験的な段階でfts1, fts2と作っては破棄（？）してきて、今はfts3が最新のようです。(sqlite3.5.1）。ただし、コンパイル済みバイナリの配布は止めてしまったようです。実験段階なので欲しい人は自分でコンパイルしてね♥みたいな。このftsで日本語が使えないとか色々言われているのに加えて、ちょっとプロトタイプをでっち上げるのに必要になりそうな雰囲気なので、日本語でもftsが使えるようにしてみました。 ↑ そもそもの動機† 『SQLite の全文検索を Python から使ってみる (3)』を読んだ。ここでftsのデフォルトの英文用のtokenizer（空白で単語を区切る）で日本語を無理やり使うためにMeCabを使って分かち書きをして、その文字列を挿入し、取り出したあとに連結とかしてた・・・。誰も知らないようだが、実はfts2

delegate 2010/04/27

リンク

ソフトウェア

自作 Python ライブラリ cjholiday 日本の祝日を判定する jholiday.py の C エクステンション版です。 GitHub >>> import cjholiday >>> cjholiday.holiday_name(2020, 7, 24) 'スポーツの日' qreki.py 旧暦および六曜を算出します。オリジナルは QREKI.AWK です。 qreki.py ファイルのみで動作させることができます。しかし、 setup.py build を行って _qreki C エクステンションをビルドすることで、より高速の動作が可能となります。 GitHub 使用法 >>> from qreki import Kyureki >>> k = Kyureki.from_ymd(2009, 11, 27) >>> print k 2009年10月11日 >>> print k

delegate 2010/04/27

Python
MeCab

リンク

ベイジアンフィルタ - Λάδι Βιώσας

MeCab＆形態素解析ネタの続きで、Pythonで簡易ベイジアンフィルタ作ってみました。ベイジアンフィルタって何ぞや？という方に簡単に説明すると、テキスト分類プログラムのことです。よくある利用方法として、あるメールが、スパムメールかそうでないのかの判別に使われたりします。ソースはコレです。ここのサイトの説明を参考にしました。アルゴリズムはPaul Graham方式を使っています。以前のコレはctypesを使ってMeCabを呼び出していたけど、今回はPython Bindingを使って書きました。さて、、、ベイジアンフィルタを試すには、フィルタに学習させる為のデータが必要です。しかし、ふつーにスパムメールたくさん、ノンスパムメールたくさん用意して実験してもいまいち面白くない。そこで、次のような実験方法を考えました。 Aさん、Bさんの書いた文章をフィルタ学習用データとして用意する。そし

delegate 2009/12/08

MeCab
bayes

リンク

ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか？」という文章を、「エアポートの無線ネットワークはどうやって設定しますか？」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。そこで、この高度な作業を

delegate 2009/12/08

mecab
bayes

リンク

MeCabを用いてスパムフィルタを作ってみよう

Photo by vsz, night glow 以前このブログでMeCabによる形態素解析を紹介しました。正直その後すっかり取り上げたことを忘れてのほほんと過ごしていたわけです(*1)が、ふとしたことでベイジアンフィルタに関するアルゴリズムの記事を見つけ、日本語でこのような記事があるなんて珍しいなということで、ちょっくら実装してみようと思い立ったわけです。形態素解析部分はMeCabくんがやってくれるので、こっちがするのは名詞を抜き出してデータベース辞書を作り、Graham方式を用いて実装したくらいです。正直ただ単純に実装しただけなのでそこまで参考にならないと思いますが、一応coderepos上に公開してみます。 svn checkout http://svn.coderepos.org/share/lang/python/spam Somewhere でチェックアウトしてください。テ

delegate 2009/12/08

mecab
bayes

リンク

きまぐれ日記: Mac OS X Leopard に「標準で」インストールされている MeCabを使ってみる

Mac OS X Leopard の Spotlight に MeCab が使われているらしいという情報を聞いたので、実際に深追いしてみました。いとも簡単に /usr/lib/libmecab* , /usr/include/mecab.h と /usr/lib/mecab/dic/apple/{ja,tc,sc} というディレクトリを発見しました。ts, sc は traditional/simplified Chinese (繁体字/簡体字) の略で、中国語の辞書だと推察されます。辞書のディレクトリはさらに dic/apple/ja/{LE,BE} という風に、エンディアンごとに分かれています。MeCabの辞書はエンディアン依存なので、こうするしかないのかもしれません。さて、この辞書を使って、UTF8の文字列を流し込んでみたのですが、うまいこと解析してくれません。MeCabのバイナ

delegate 2009/12/08

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

delegate 2009/12/08

リンク

『C#でMecabのDLLを利用する』

MeCab (和布蕪)というオープンソース形態素解析エンジンがあるのですが、これはとっても楽しいおすすめソフトです。オープンソース形態素解析エンジンにはChaSen, Juman, KAKASI等あるのですが、私はMeCabを利用しています。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.jp/ 形態素解析エンジンでなにが出来るかというと、まぁ色々できるのですが、日本語をわかち書きしてみたり、文書を単語単位にわけて品詞を取得してみたりとあるのですが、私は漢字によみがなを振る為に利用しています。形態素解析について　出典: フリー百科事典『ウィキペディア（Wikipedia）』http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%