Interpretable Machine Learning 6.3 - Prototypes and Criticisms
![言語処理100本ノックをRubyでやったメモ](https://cdn-ak-scissors.b.st-hatena.com/image/square/e2f0f8d24fc89b83350d593fc5b2c2722b928e5f/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2Fbfe1421f6cb34626827bdd7431a1feab%2Fslide_0.jpg%3F6674540)
BimyouSegmenterはRubyだけで書かれた微妙なサイズの日本語分かち書きソフトウェアです。 約150Kバイトの微妙なサイズのソースコードで、青空文庫にある太宰治、宮沢賢治、夏目漱石、夢野久作作品であれば、MeCab+ipadicによるの分かち書きの結果と94%くらいは同じになります。 というTinySegmenterのパロディです。 TinySegmenterは新聞記事で学習されているのと、空白文字が単語にくっついたりして扱いが難しかったので、TinySegmenterのようなひとつのソースコードに全部つっこんだ感じの分かち書きのライブラリを自分の用意したデータで学習して好きに調節できたらいいなと思ったので作ってみました。 nekoneko_genでもこれを使っています。 TinySegmenterとは特徴ベクトルも学習アルゴリズムも学習データも違いますが、基本的な考え方はTi
あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。 いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。 なにをするものなのか、ちょっと分かりにくいので、例で説明します。 2ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する 例として、2ちゃんねるに投稿されたデータから、投稿(レス)がどのスレッドのレスか判定するライブラリを生成してみます。 準備 まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。 環境は、ここではUbuntuを想定しますが、Windowsでも使えます。(WindowsXP, ruby 1.9.3p0で確認)
MeCabのインストール MeCabと辞書のインストールはapt先生にお任せします.辞書はUTF-8のものを使います. $ sudo apt-get install mecab mecab-ipadic-utf8MeCabが正常に動くことを確認します. $ echo "俺、この戦争が終わったら結婚するんだ。" | mecab 俺 名詞,代名詞,一般,*,*,*,俺,オレ,オレ 、 記号,読点,*,*,*,*,、,、,、 この 連体詞,*,*,*,*,*,この,コノ,コノ 戦争 名詞,サ変接続,*,*,*,*,戦争,センソウ,センソー が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 終わっ 動詞,自立,*,*,五段・ラ行,連用タ接続,終わる,オワッ,オワッ たら 助動詞,*,*,*,特殊・タ,仮定形,た,タラ,タラ 結婚 名詞,サ変接続,*,*,*,*,結婚,ケッコン,ケッコン する 動詞,
今やってる仕事の関係で、形態素解析アルゴリズムについてちょっと調べる必要があったので、ついでにRubyで形態素解析ライブラリを作ってみた。という内容の発表です(のはずだが、Rubyのコードが一文字も書いてないですね……)。 スタート形態素解析 View more presentations from todesking ちょっとプレゼンのクオリティがひどいので、近いうちにブログで補足記事を書こうと思っております。 ソースは https://github.com/todesking/okura にて公開中。 Pure Rubyでgem一発で入るような形態素解析ライブラリがあると、Windowsやherokuなどで形態素解析動かせてけっこうべんりなきがします。 直近(来週くらい)の開発では、 gem化 辞書もgem化 辞書のコンパイル Double Array Trieの採用 未知語処理対応
ちょっとめんどくさかったのでメモ. MacPorts, rvmのセットアップは終わっていると仮定する. gemsにmecab-rubyが無い. portsに存在するrb-mecabだとrvmのrubyからrequireできないし, どこにパス通せばいいのかもさっぱりわからなかったので, ソースとってきてgemをビルドして, インストールする. $ port install mecab $ wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-ruby-0.98.tar.gz $ tar xzf mecab-ruby-0.98.tar.gz $ cd mecab-ruby-0.98 mecab-ruby-0.98$ gem build mecab-ruby.gemspec mecab-ruby-0.98$ gem instal
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く