[B! mecab] monnalisasmileのブックマーク

monnalisasmile id:monnalisasmile

mecabに関するmonnalisasmileのブックマーク (15)

neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
monnalisasmile 2015/03/16
魔改造辞書

dictionary

github

形態素解析

mecab

unread

nlp

自然言語処理
リンク
python、R、Mecabなどなど
ええっとですねぇ、とりあえずインストールしたツールを記録しておきます。 ■anaconda (python) ■RStudio ■MeCab ■RMeCab ■mecab-python ■BeautifulSoup ■boilerpipe
monnalisasmile 2015/03/11
ツール

インストール

com

mecab

python
リンク
AWS EC2上にmecab + R環境をつくる - Qiita
AWS EC2上にmecab+Rをインストールするメモ。 mecabはソースファイルからインストール。 Rはソースファイルからインストール。 RMeCabについては以下のサイトを参照のこと。 RMeCab - RとLinuxと… http://rmecab.jp/wiki/index.php?RMeCab 0. instance立ち上げ EC2上にinstanceを立ち上げる。とりあえず、お試しならt2.microでも良いかも。 AWS t2.micro OS: Aamzon Linux ツール、データはS3上に上げておくと、外部からダウンロードするより少し早いし、お財布にも少し優しい。 1. yum update
monnalisasmile 2014/08/22
TextMining

R

ec

aws

ec2

mecab
リンク
MeCab の辞書構造と汎用テキスト変換ツールとしての利用
概要単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できますファイル単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル単語辞書ですエントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで, それぞれ表層形左文脈ID (単語を左から見たときの文脈 ID) 右文脈ID (単語を右から見たときの文脈 ID)
monnalisasmile 2013/10/27
mecab

auto

bit

辞書
リンク
マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ
monnalisasmile 2013/08/07
mecab

Programming

nlp

自然言語処理

マルコフ連鎖

形態素解析

プログラミング

アルゴリズム

algorithm

ruby
リンク
MeCabとPythonで遊んでみたメモ - Λάδι Βιώσας
MeCab http://mecab.sourceforge.jp/ ココからインストール。MeCabには Python binding っていう便利なのがあるんだけど、Winだとどうも上手くコンパイル出来ない。あれこれ調べたところ、ココに、ctypes*1を利用したMeCabの使い方が書いてあったので、これを使うことにする。 ctypes ココからダウンロード。0.9.9.3はうまく動かなかったので、前のバージョンの0.9.6を使う。とりあえずこれでPythonからMeCabを使えるようになりました。マルコフ連鎖で、、、マルコフ連鎖アルゴリズムの説明やらサンプルが、ココとかココらへんにあったので参考にして、Pythonで書いてみた。 # -*- coding: sjis -*- from ctypes import * def sparse(s): # ライブラリの場所を指定 lib
monnalisasmile 2013/08/07
mecab

python

マルコフ連鎖

nlp

人工無脳

形態素解析

自然言語処理

twitter関連

marcov
リンク
MeCabとPythonでマルコフ連鎖を書いてみる(連鎖数2) | Weboo! Returns.
PythonでMeCabを使ったわかち書きができるようになったので、マルコフ連鎖のプログラムを書いてみました。パパパパパイソンさんのと同じ文章を元に自動生成した文章がこれです。やっぱり連鎖数1の時よりも、それらしい文章を出力してくれるようです。まぁ、意味が分からないのは一緒ですが。それは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。掌の上で少し落ちついて書生の顔を見た。はここで始めて人間というものである。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。これが人間の飲む煙草というものである。掌の上で少し落ちついて書生の
monnalisasmile 2013/08/07
mecab

python
リンク
Pythonで形態素解析 - よしなしごと
授業で，日本語文書を単語に切り分け索引語リストを作りtf-idfを求めよという課題が出たので，Pythonで取り組んでみることにしました．基本的には初心者なので，誤りなどあればご指摘いただければ幸いです．まずは日本語文書を形態素解析するために，オープンソースの形態素解析エンジンMeCabをインストールします．形態素解析とは文を形態素という言語で意味を持つ最小単位に分割し，それぞれの品詞を判別する技術です．自然言語処理の基礎技術でかな漢字変換や機械翻訳などに使われたりします．形態素解析 - Wikipedia．国立国会図書館の前館長である長尾真先生は自然言語処理における第一人者で，形態素解析エンジンには長尾先生の研究室で作成され現在も開発が続けられているJumanというシステムもあります．*1 Try JUMAN MeCabのインストール公式のページからPythonバインディングも提供さ
monnalisasmile 2013/08/01
mecab

python

programming

science

university

自然言語処理

図書館員

エレクトリック
リンク
第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記
第5回さくさくテキストマイニング勉強会 : ATND データクリーニング入門〜精度は細部に宿る〜 by toilet_lunch様掃除は大事です！！ Unicode正規化フィルタリング第2水準の漢字は捨てる短いツイートは捨てる URLは捨てるあなたの質問に答えてみた〜疑問に対する応答〜 by gepuroさんイカ娘の記事から答えをマイニング Cabochaを使って係り受け解析質問文から疑問詞を取り出す本当に気持ちのいい全文検索〜Lucene/Solr入門〜 by AntiBayesianさん検索エンジン入門転置インデックス適合率と再現率とF値 TF-IDF Lucene/Solr入門 Solrのインストール Schema設定：typesとfields gosenで形態素解析ツイートをCSVで登録まとめ検索は大規模データ時代には必須全文検索，転置インデック
monnalisasmile 2011/12/14
形態素解析

辞書

mecab

テキストマイニング

マイニング

インストール

研究

全文検索

NLP

データマイニング
リンク
MeCabのコマンドライン引数一覧とその実行例 | mwSoft
-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書
monnalisasmile 2011/12/13
メモメモ

mecab

辞書

形態素解析

自然言語処理

あとで読む
リンク
Excelで自然言語処理: MeCabにユーザ辞書を追加するには？
「MeCab/CabChaによる言語解析演習」を参考に、MeCab(Windows版)にユーザ辞書を追加しようとしたところ、かなりハマりました。MeCab/CabChaによる言語解析演習http://chasen.naist.jp/chaki/t/2008-09-09/doc/mecab-cabocha-nlp-seminar-enshu-2008.ppt一連の失敗と原因、対処をメモしておきます。【使用したMeCabのバージョン】0.98(Windows用バイナリ)【コマンドラインからの入力】C:\NAIST>mecab-dict-index -f SHIFT-JIS -t SHIFT_JIS –d “C:\Program Files\mecab\dic\ipadic” -u user.dic user.csv【エラーメッセージ】dictionary_compiler.cpp(71) [p
monnalisasmile 2011/12/13
mecab

研究

TextMining

Excel
リンク
livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク
突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語
monnalisasmile 2011/12/01
Ruby使わなくて良さそうだし、こっちの方が楽チンそう。

mecab

nlp

Perl

dictionary

形態素解析

自然言語処理

Wikipedia

辞書

学習

あとで読む
リンク
mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ
（インストールの仕方などはほかの人がいっぱい説明してくれているので割愛）どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に「wikipediaとhatenaキーワードをユーザ辞書として利用する」ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c
monnalisasmile 2011/12/01
今日中にMeCabの辞書を更新しまーす。

mecab

形態素解析

wikipedia

hatena

shell

辞書

rails
リンク
MeCabとRMeCabをインストールして、ちょっと遊んでみる - yasuhisa's blog
某バイトというか勉強させてもらっているところ*1でRとMeCabでほげほげするようなのでインストールするよ!!Macです。 mecabと辞書のインストールMeCab - Browse Files at SourceForge.netよりmecabとmecab-ipadicをダウンロード。win用以外のは辞書が含まれていないらしいので、辞書もダウンロードしてくる。両方ともディレクトリに移動して以下を実行すればおk。 ./configure --with-charset=utf-8 make chmod 700 install-sh sudo make install こんな感じで結果が返ってくればインストールできてるっぽい。 /Users/yasuhisa/Downloads/mecab-ipadic-2.7.0-20070801% echo 'install log' | mecab i
monnalisasmile 2011/11/30
rmecab

RMeCab

テキストマイニング

mecab

R

MeCab

Twitter

インストール
リンク
はてなブログ | 無料ブログを作成しよう
オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………
monnalisasmile 2011/11/30
wikipediaをmecab似追加

形態素解析

mac

MeCab
リンク
1