[B! mecab] yuisekiのブックマーク

yuiseki id:yuiseki

mecabに関するyuisekiのブックマーク (13)

GitHub - katsyoshi/fluent-plugin-mecab: fluent plugin for MeCab
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yuiseki 2014/06/30
tech

fluentd

mecab
リンク
fluent-plugin-mecab - katsyoshiの日記
誰が何のために使うのかよくわからないけど，新しいfluentd plugin書きました． fluntdに流れてくる日本語のデータをmecabに食わせて形態素解析結果をもう一度fluentdに流すプラグインです． install Gemfileに以下を書いて，bundle installすればいいです gem 'fluent-plugin-mecab', git: 'git://github.com/katsyoshi/fluent-plugin-mecab.git' 使い方は簡単です．以下のように設定します <source> type forward </source> <match mikutter.**> type copy <store> type stdout </store> <store> type mecab key message tag mecab.meacab </st
yuiseki 2014/06/30
tech

fluentd

mecab
リンク
GitHub - todesking/okura: Ruby用形態素解析ライブラリ｡MeCabと互換の辞書形式を使用
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yuiseki 2013/03/12
ruby

mecab

形態素解析

自然言語処理
リンク
Sign in - Google Accounts
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
yuiseki 2012/12/19
r

mecab
リンク
MeCab: 単語の追加方法
概要辞書への単語追加には, 二つの方法があります. システム辞書への追加ユーザ辞書への追加システム辞書への追加辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード例: utf-8の辞書を作成する例 % /usr/local/libexec/mecab/mecab-dict-
yuiseki 2012/12/14
mecab

自然言語処理

形態素解析
リンク
MeCabの辞書をカスタマイズする | mwSoft
概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,
yuiseki 2012/06/30
mecab
リンク
livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク
突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語
yuiseki 2011/10/25
wikipedia

mecab

自然言語処理

顔文字

データマイニング

形態素解析
リンク
MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su
yuiseki 2011/06/07
便利

mecab

自然言語処理
リンク
Ruby+MongoDB+MeCabで全文検索
これに検索コマンドをつけたのでメモ。MeCabを選んだのは気分です。 User Streamsから取得する際にそのままのJSONをMongo DBに入れてたのを、MeCabかませた配列も入れるコードを追加(過去ログもバッチ処理した)。 if status['text'] status['keywords'] = MeCab::Tagger.new("-Owakati").parse(status['text']).split(' ') end あとインデックスを張る $ mongo > use userstreams > db.status.ensureIndex({keywords: 1}) 検索する関数 def search(keyword) keywords = MeCab::Tagger.new("-Owakati").parse(keyword).split(' ') return
yuiseki 2010/06/24
便利

超便利

ruby

mongodb

mecab

全文検索

$$$
リンク
MeCabの辞書にはてなキーワードを追加しよう - 不可視点
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
yuiseki 2009/06/01
便利

自然言語処理

辞書

dataset

mecab
リンク
Debian etch (4.0)のパッケージにある MeCab をインストールして辞書を UTF-8 化するメモ - hoge256ブログ
次のような感じで MeCab をインストールすると、デフォルトでは EUC-JP の文字コードで辞書がインストールされます。 aptitude install mecab UTF-8 な環境で作業する場合には、いろいろと都合が悪かったりするので、MeCab の辞書を UTF-8 に変換して使う場合のメモを書いておきます。なお、詳しく検証とかはしていないので、参考にする方は自己責任でお願いします。ネット上を探すと IPA の辞書を使っている例が多かったのですが、デフォルトだと juman 辞書が入るみたいなので、これを　UTF-8 化してみます。ちなみに、IPA 辞書は non-free みたいです。 mecab コマンドを実行する際に参照される辞書は /var/lib/mecab/dic/debian みたいですが、実際の辞書の場所は /usr/share/mecab/dic/juman
yuiseki 2008/11/23
便利

linux

mecab

自然言語処理
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
yuiseki 2008/11/06
便利

超便利

mecab

自然言語処理
リンク
パピョプパパピポポポパポMeCabポポピピペポンパプププ*1 - fubaはてな
他消火が伊露露モナコMeCab５５二時へホンがツクるピャじゃなかった！なおしたニーズ "ヨッピーさんがしゃべってる言葉の変換系はまだできないんですか" "youpyさんのtwitterをフィードで読んでイラッとして自動翻訳書いてたけど10分ぐらいでアホかと思ってやめた" 実装最新版のMeCabがピプピョプです。 % wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-ipadic-2.7.0-20070801.tar.gz % tar vxzf mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801 % wget http://fuba.moaningnerds.org/src/papyopu/conv.pl % perl conv.pl
yuiseki 2008/09/08
自然言語処理

tech

mecab

パ行
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx