タグ

Mecabに関するmoqadaのブックマーク (13)

  • Slackの会話を元に一句詠む - Qiita

    SlackでBotに一句詠ませるために、r7kamura/ikkuという一句抽出ライブラリと、これを利用したr7kamura/ruboty-kokodeikkuというRuboty用プラグインをつくりました。 様子 このようにチャット上にBotを置いておくと、会話に反応して一句詠んでくれます。 ruboty-kokodeikku ruboty-kokodeikkuは、チャットBot用のフレームワークであるRubotyのためのプラグインです。Botが参加している部屋の全ての発言を監視し、一句として妥当なパターンがあれば一句詠んでくれます。 使い方 使い方は、mecabを使えるようにしてruboty-kokodeikkuをGemfileに追加するとOKです。Herokuで利用する場合は、以下のように環境変数を設定すると良いでしょう。 heroku config:set \ BUILDPACK_U

    Slackの会話を元に一句詠む - Qiita
  • Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web

    検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏 作者:山田 浩之,末永 匡発売日: 2014/09/25メディア: 単行(ソフトカバー) (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日語の形態素解析 検索エンジンの構築 データをMongoDBに格納 Fl

    Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    moqada
    moqada 2009/06/03
    mecabの辞書に新たに単語を追加する方法
  • ipadicのライセンスの件 - mir the developer

    大きな誤解をしていたようです。某所から「ipadic(IPA辞書)はIPAライセンスだから商用利用ができない」と聞いていたので、そうなんだと思ってここ1年同じように書いたり/話したりしてきたのですが、ipadicは商用利用の禁止とかしてないですね(法律の専門家ではないので断定はできないですが)。 Tritonnのバイナリパッケージングについていろいろ検討していて「mecab-ipadic入れたいけど、入れちゃうと商用利用できなくなるんだよなぁ」とまた悩んでいたわけです。でもちょっと気になって、mecab-ipadicのCOPYINGを初めて読んでみたのですが、COPYINGにはIPA(情報処理推進機構)に著作権があるなんて一言も書いていない。というかまず著作権保有者を名乗っているのは、奈良先端科学技術大学院大学です。IPAという文字は一言も入っていない。 どんな内容が書いてあるかというと、

    ipadicのライセンスの件 - mir the developer
    moqada
    moqada 2008/10/07
    mecab-ipadicは商用利用可能。
  • MeCab+pythonという組み合わせ

    photo by s1m0ne "Ocean tender love cocktail" 最近は日語を解析してなんかできないかなぁと思っているので、形態素解析用のソフトウェアMeCabをインストールして、いろいろ遊んでいる状態です。インストールはそんなに難しくないと思いますが、とりあえず載せておきたいと思います。 まずはMeCabとその辞書、ライブラリ一式のインストール。ソースからビルドしてインストールするのでもいいですが、今回は手軽にapt-getを使用。 $ sudo apt-get install mecab mecab-ipadic mecab-utils libmecab1 libmecab-dev で簡単にインストールできました。 ですがこのままでは辞書の文字コードがeuc-jpであるため、utf-8が標準のubuntuでは少し使いづらい。調べてみたら、IPA辞書をeuc-j

    MeCab+pythonという組み合わせ
  • Mac OSX 10.5 LeopardにMeCab0.96 (port版)の環境をインストール - When it’s ready.

    簡単に出来ると思ったのに、意外とこけたのでメモ ソースからインストール方式と、MacPortから入れるのと2種類有る。 それぞれのメリットとデメリットが有ると思うが、自分が感じたところ。 ソース式 メリット 最新のが使える 文字コード等細かい設定が出来る デメリット Port式よりめんどくさい コンパイルに時間がかかる 正しいUnInstallの仕方がわからない Port式 メリット コマンド打つだけでいい uninstallが簡単 デメリット バージョンが古い(今日現在096、ソース097と比較して) 始め、ソースから入れて動作チェックまで終わったけどVの字がPort版を使っているとの事だったので挙動を合わせたかったので辞書とMeCab体を削除した。Portの方がインスコは簡単だと思ったが意外と時間が掛かった。 MeCab + 辞書 インストール # port install MeCa

    Mac OSX 10.5 LeopardにMeCab0.96 (port版)の環境をインストール - When it’s ready.
    moqada
    moqada 2008/04/30
    leopardにmecabとmecab python bindingをインストール
  • MeCab は便利 - Twisted Mind

    monologista を社内で使うとき Yahoo API 使うわけに行かないので、MeCab の Python Binding (Swig) を使いました。 機能は思いっきり最小限に抑えています。 # vim: fileencoding=utf8 sts=4 sw=4 import MeCab VALID_WORD_LENGTH = 1 t = MeCab.Tagger('') def mecab(sentence=''): m = t.parseToNode(sentence) # 先頭無視 m = m.next words = [] while m: word = unicode(m.surface, 'utf8') if len(word) > VALID_WORD_LENGTH and m.feature.split(',')[0] == '名詞': words.append(

    MeCab は便利 - Twisted Mind
  • 転送中

    リダイレクトします 以前ここにあったブログは、現在 http://blog.srengine.com/2008/02/python-pythonmecab.html にあります。 リダイレクトしますか。

  • Blog - Mikula Beutl - SEO Consulting

    This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

    Blog - Mikula Beutl - SEO Consulting
  • MeCab: Yet Another Japanese Dependency Structure Analyzer

    スクリプト言語のバインディング $Id: bindings.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 各種スクリプト言語 (perl, ruby, python, Java) から, MeCab が提供する形態素解析の機能を利用可能です. 各バインディングは SWIG というプログラ ムを用いて, 自動生成されています. SWIG がサポートする他の言語も 生成可能だと思われますが, 現在は, 作者の管理できる範囲内ということで, 上記の4つの言語のみを提供しております. インストール 各言語バイディングのインストール方法は, perl/README, ruby/README, python/README, java/README を御覧下さい. とりあえず解析する MeCab::Tagger というクラスのインスタンスを生成し, pa

    moqada
    moqada 2007/11/09
    各言語からmecabを使うためのバインディング
  • ウノウラボ Unoh Labs: mecabのユーザ辞書を追加した時にはまったメモ

    こんにちは satoです。mecabのユーザ辞書を追加したのですが,いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる 5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) sys.dic と ユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く 6)追加した辞書に品詞IDが付かない or 65

    moqada
    moqada 2007/09/19
    品詞IDの取り方、ユーザ辞書の追加方法など6つのTips
  • http://recipe.via-kitchen.com/MeCab/

    moqada
    moqada 2007/07/30
    Mecabのインストール方法
  • cmecab -- Mecab-Pyhton高速バインディング

    cmecab -- Mecab-Python高速バインディング 初出: 2007/7/14 Status: alpha MecabのPythonバインディングの改良高速版です。 SWIGを使わず、Mecabの最低限の機能だけをPython-C APIで実装しました。 mecab-pythonバインディングの以下のメソッドを実装しています。 createTagger Tagger.parseToNode Nodeからのデータ取得(surface, feature, posid, char_type, statのみ) →もう少しくだけた紹介はこちら。 更新情報 →最新情報はこちらでどうぞ [2007/7/16] 多少性能改善。バージョン番号をつけました。0.1 [2007/7/15] 公開。 ベンチマーク結果 1.5kb程度の同一の短いテキストを10000回形態素解析した結果を取得す

    moqada
    moqada 2007/07/30
    MecabのPythonバインディングの改良高速版
  • 1