タグ

mecabに関するdelegateのブックマーク (16)

  • Python3で形態素解析エンジンMeCabを使ってみた

    形態素解析エンジンMeCabをPython3から使ってみましたのでご紹介します。 環境 macOS 10.13.6 Python 3.6.4 準備 MeCabと辞書と、mecab-python3をインストール $ brew install mecab mecab-ipadic git curl xz $ pip install mecab-python3 mecab-ipadic-NEologdのインストール 標準の辞書だとEC2とかS3とかうまく分かち書きができなかったのでWeb上の新語が追加されたシステム辞書 mecab-ipadic-NEologd もインストールしました。 インストール方法の詳細は mecab-ipadic-NEologd : Neologism dictionary for MeCab を確認してみてください。 $ git clone --depth 1 git@

    Python3で形態素解析エンジンMeCabを使ってみた
  • Go言語でMeCabを使う - 人工知能してみる

    こんにちは。 機械学習系はPythonにライブラリが偏っていることもあり圧倒的にPython一択ではあるのですが処理が遅いのが問題です。 Cythonって手もありますがビジネスで使うってなるとRubyとかGoで使えた方がいいよなーと思ってます。 そこでGoの勉強も兼ねて自然言語処理の基MeCabで分かち書きをしてみました。 結構苦労したので書いておきます。 使ったラッパー Goで使えるMeCabのラッパーはいくつかあるのですが一番簡単に動かせたのが下記のレポジトリのラッパーです。 github.com インストール 使い方はGitHubのREADMEに書いてあるとおりなのですが、事前にMeCabが入っていれば下記で終わりです。 $ export CGO_LDFLAGS="`mecab-config --libs`" $ export CGO_CFLAGS="-I`mecab-config

    Go言語でMeCabを使う - 人工知能してみる
  • MeCab(形態素解析)をPythonから2分で使えるようにする方法

    ※サンプル・コード掲載 あらすじ Javaだと、Kuromojiを使用するまでに必要な手続きは、基的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。 しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。 ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。 使用した環境 Ubuntu 16.04python3、pipはインストールされていると仮定 *インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。 MeCabのインストール(1分以内) コマンドを打ち間違えなければ、完了まで1分かかららず、ご活用いただけるはずです。 MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。 Me

    MeCab(形態素解析)をPythonから2分で使えるようにする方法
  • 【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート

    負のオーラを自動検出したい 前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。 前回のエントリでも言いましたが、著作権侵害モノ以外にも、「残しておくとまずいツイート」は色々ある可能性があり、たとえば誹謗中傷の類いがあるかと思います。誹謗中傷ツイートを自動抽出する方法はにわかには思いつきませんが、たぶん「クソ」とか「死ね」とか「バカ」とかそういう悪口の辞書が必要になりそうです。 ところで、言語データの分析手法として、単語ごとに感情特性を評価した辞書というものがあちこちで作られていまして、これを使ってツイートがどのような感情を帯びているか分析するということが、よくやられています。Yahoo!がそういうツールを提供してたりもします(参考リンク)。 Yahoo!のリ

    【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート
  • 日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

    こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推

    日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
  • Ubuntu14.04にpyenv,Anaconda,MeCabをインストールしPython3環境構築

    Anacondaで入れたPython3からMeCabを使いたい。 Vagrant上のUbuntu14.04に構築する。 目次 VagrantでUbuntu14.04環境を作成pyenvでAnacondaをインストールMeCabをインストールmecab-python3をインストール1. VagrantでUbuntu14.04環境を作成こちらのサイトから、Ubuntu14.04のboxを追加。 色々あったけどOfficialにした。 vagrant box add ubuntu1404 https://cloud-images.ubuntu.com/vagrant/trusty/current/trusty-server-cloudimg-amd64-vagrant-disk1.boxVagrantfileの作成。 mkdir ubuntu cd ubuntu vagrant init ubu

    Ubuntu14.04にpyenv,Anaconda,MeCabをインストールしPython3環境構築
  • さくらVPSにMeCabをインストールしてPHPから利用(CentOS6.4+PHP5.3.3/5.4.2) - 青春B■雑記blog‐青酸カリ カラメルシロップ味‐

    サーバ:さくらVPS OS:CentOS6.4 PHP:5.3.3(5.4.2でも同様でした) MeCab:0.996 IPAdic:2.7.0 php-mecab:0.5.0 文字コード:UTF-8 記事ではディレクトリ構成がデフォルトのままであることを前提に進めていますので、構成をいじっている方はそれに合わせて変更してください。 さくらVPSへのMeCabインストールを取り上げたblog記事はすでにいくらでもあるのですが、バージョンが古かったり環境が微妙に違っていたりもするので、こうして新しい情報を掲載するのも、まあ、意味があるのではないかと。

  • SQLite Full Text Search with MeCab - mynote

    はじめに† SQLiteの全文検索の拡張FTSは、まだ実験的な段階でfts1, fts2と作っては破棄(?)してきて、今はfts3が最新のようです。(sqlite3.5.1)。ただし、コンパイル済みバイナリの配布は止めてしまったようです。実験段階なので欲しい人は自分でコンパイルしてね♥みたいな。このftsで日語が使えないとか色々言われているのに加えて、ちょっとプロトタイプをでっち上げるのに必要になりそうな雰囲気なので、日語でもftsが使えるようにしてみました。 ↑ そもそもの動機† 『SQLite の全文検索を Python から使ってみる (3)』を読んだ。ここでftsのデフォルトの英文用のtokenizer(空白で単語を区切る)で日語を無理やり使うためにMeCabを使って分かち書きをして、その文字列を挿入し、取り出したあとに連結とかしてた・・・。誰も知らないようだが、実はfts2

  • ソフトウェア

    自作 Python ライブラリ cjholiday 日の祝日を判定する jholiday.py の C エクステンション版です。 GitHub >>> import cjholiday >>> cjholiday.holiday_name(2020, 7, 24) 'スポーツの日' qreki.py 旧暦および六曜を算出します。オリジナルは QREKI.AWK です。 qreki.py ファイルのみで動作させることができます。しかし、 setup.py build を行って _qreki C エクステンションをビルドすることで、より高速の動作が可能となります。 GitHub 使用法 >>> from qreki import Kyureki >>> k = Kyureki.from_ymd(2009, 11, 27) >>> print k 2009年10月11日 >>> print k

  • ベイジアンフィルタ - Λάδι Βιώσας

    MeCab&形態素解析ネタの続きで、Pythonで簡易ベイジアンフィルタ作ってみました。 ベイジアンフィルタって何ぞや?という方に簡単に説明すると、テキスト分類プログラムのことです。よくある利用方法として、あるメールが、スパムメールかそうでないのかの判別に使われたりします。 ソースはコレです。ここのサイトの説明を参考にしました。アルゴリズムはPaul Graham方式を使っています。以前のコレはctypesを使ってMeCabを呼び出していたけど、今回はPython Bindingを使って書きました。 さて、、、ベイジアンフィルタを試すには、フィルタに学習させる為のデータが必要です。しかし、ふつーにスパムメールたくさん、ノンスパムメールたくさん用意して実験してもいまいち面白くない。 そこで、次のような実験方法を考えました。 Aさん、Bさんの書いた文章をフィルタ学習用データとして用意する。そし

    ベイジアンフィルタ - Λάδι Βιώσας
  • ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

    ベイジアンフィルターで日語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を

    ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。
  • MeCabを用いてスパムフィルタを作ってみよう

    Photo by vsz, night glow 以前このブログでMeCabによる形態素解析を紹介しました。正直その後すっかり取り上げたことを忘れてのほほんと過ごしていたわけです(*1)が、ふとしたことでベイジアンフィルタに関するアルゴリズムの記事を見つけ、日語でこのような記事があるなんて珍しいなということで、ちょっくら実装してみようと思い立ったわけです。 形態素解析部分はMeCabくんがやってくれるので、こっちがするのは名詞を抜き出してデータベース辞書を作り、Graham方式を用いて実装したくらいです。正直ただ単純に実装しただけなのでそこまで参考にならないと思いますが、一応coderepos上に公開してみます。 svn checkout http://svn.coderepos.org/share/lang/python/spam Somewhere でチェックアウトしてください。 テ

    MeCabを用いてスパムフィルタを作ってみよう
  • きまぐれ日記: Mac OS X Leopard に「標準で」インストールされている MeCabを使ってみる

    Mac OS X Leopard の Spotlight に MeCab が使われているらしいという情報を聞いたので、実際に深追いしてみました。 いとも簡単に /usr/lib/libmecab* , /usr/include/mecab.h と /usr/lib/mecab/dic/apple/{ja,tc,sc} というディレクトリを発見しました。ts, sc は traditional/simplified Chinese (繁体字/簡体字) の略で、中国語の辞書だと推察されます。辞書のディレクトリはさらに dic/apple/ja/{LE,BE} という風に、エンディアンごとに分かれています。MeCabの辞書はエンディアン依存なので、こうするしかないのかもしれません。 さて、この辞書を使って、UTF8の文字列を流し込んでみたのですが、うまいこと解析してくれません。MeCabのバイナ

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 『C#でMecabのDLLを利用する』

    MeCab (和布蕪)というオープンソース形態素解析エンジンがあるのですが、これはとっても楽しいおすすめソフトです。 オープンソース形態素解析エンジンにはChaSen, Juman, KAKASI等あるのですが、私はMeCabを利用しています。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.jp/ 形態素解析エンジンでなにが出来るかというと、まぁ色々できるのですが、日語をわかち書きしてみたり、文書を単語単位にわけて品詞を取得してみたりとあるのですが、私は漢字によみがなを振る為に利用しています。 形態素解析について 出典: フリー百科事典『ウィキペディア(Wikipedia)』http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%

    『C#でMecabのDLLを利用する』
  • 403 Forbidden

    \閉鎖予定のサイトも売れるかも?/ アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう

  • 1