[B! NLP] shintaksのブックマーク

shintaks id:shintaks

NLPに関するshintaksのブックマーク (3)

自分の英語文書をマイニングして次に学ぶべき単語リストを自動生成する方法(暦本式語彙増強法) - NextReality
英単語の語彙をどうやって増やしたらいいだろうか。やみくもに単語集みたいなものを順に覚えていくのも道程が長そうだ。また、一般論ではなく自分がよく書く分野に特化して語彙を増やしたい。ということで、テキストマイニングを使ってやる方法を考えてみた。方針は以下の通りである：自分が今までに書いたすべての（英語）の文書を解析して、品詞ごとに出現回数でソートする。つぎに、自分の所属するコミュニティの文書（たとえば自分がよく参加する学会に掲載される論文など）をなるべく大量にあつめて、同じように品詞ごとに出現回数でソートしておく。両者を比較して、そのコミュニティでは使用頻度が高いにも関わらず、まだ使ったことのない単語を抽出して自分専用の「単語集」をつくる。こうやって抽出された単語集を勉強すれば、一般的な単語集を使うよりも効率がいいのではないだろうかという目論みだ。対象となる分野を選んでいるのは、たとえ
shintaks 2014/01/16
english

Ruby

NLP
リンク
Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥
12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました｡まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが､いちおう動くレベル*1になったので公開します｡注意事項バージョン0.0.xのうちは､インタフェースや辞書フォーマットは頻繁に変更される予定です｡ある程度安定したら0.1.0出します｡今のところ､Ruby1.9系専用です｡取得 gem install okuraでインストールできます｡ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します｡動作確認はMeCab用NAIST辞書で行いました｡最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6
shintaks 2013/10/05
ruby

NLP

形態素解析

rubygems
リンク
第5回最先端NLP勉強会に参加してきました - a lonely miner
もう一週間ほど前になってしまうのですが，最先端NLP勉強会という会に参加させていただきました．じつは昨年も参加するべく申し込みまでは行ったものの，事情があって参加できず．今年はなんとかリベンジを果たせました．二日間で30本もの論文を読むこの勉強会，読む論文の選出プロセスにも工夫が凝らされています．参加者全員が，対象となる会議の予稿集に目を通し，面白そうだと思った論文数本(今年は12本)に対して投票を行う．多くの票を集めた論文，上位30本ほどを候補とし，参加者はその中から自分が紹介する論文を選ぶ．という二段階をとっているので，いわゆる「ハズレ」な論文が少なくなっており，どの発表もたいへん勉強になりました．私が紹介したのは以下の論文， Mohammad Taher Pilehvar, David Jurgens and Roberto Navigli, Align, Disamb
shintaks 2013/09/08
NLP
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx