タグ

NLPに関するshintaksのブックマーク (3)

  • 自分の英語文書をマイニングして次に学ぶべき単語リストを自動生成する方法(暦本式語彙増強法) - NextReality

    英単語の語彙をどうやって増やしたらいいだろうか。やみくもに単語集みたいなものを順に覚えていくのも道程が長そうだ。また、一般論ではなく自分がよく書く分野に特化して語彙を増やしたい。ということで、テキストマイニングを使ってやる方法を考えてみた。方針は以下の通りである: 自分が今までに書いたすべての(英語)の文書を解析して、品詞ごとに出現回数でソートする。 つぎに、自分の所属するコミュニティの文書(たとえば自分がよく参加する学会に掲載される論文など)をなるべく大量にあつめて、同じように品詞ごとに出現回数でソートしておく。 両者を比較して、そのコミュニティでは使用頻度が高いにも関わらず、まだ使ったことのない単語を抽出して自分専用の「単語集」をつくる。 こうやって抽出された単語集を勉強すれば、一般的な単語集を使うよりも効率がいいのではないだろうかという目論みだ。対象となる分野を選んでいるのは、たとえ

    自分の英語文書をマイニングして次に学ぶべき単語リストを自動生成する方法(暦本式語彙増強法) - NextReality
  • Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥

    12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました。 まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが、いちおう動くレベル*1になったので公開します。 注意事項 バージョン0.0.xのうちは、インタフェースや辞書フォーマットは頻繁に変更される予定です。 ある程度安定したら0.1.0出します。 今のところ、Ruby1.9系専用です。 取得 gem install okuraでインストールできます。 ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します。 動作確認はMeCab用NAIST辞書で行いました。 最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6

    Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥
  • 第5回 最先端NLP勉強会に参加してきました - a lonely miner

    もう一週間ほど前になってしまうのですが,最先端NLP勉強会 という会に参加させていただきました. じつは昨年も参加するべく申し込みまでは行ったものの,事情があって参加できず.今年はなんとかリベンジを果たせました. 二日間で30もの論文を読むこの勉強会,読む論文の選出プロセスにも工夫が凝らされています. 参加者全員が,対象となる会議の予稿集に目を通し,面白そうだと思った論文数(今年は12)に対して投票を行う. 多くの票を集めた論文,上位30ほどを候補とし,参加者はその中から自分が紹介する論文を選ぶ. という二段階をとっているので,いわゆる「ハズレ」な論文が少なくなっており,どの発表もたいへん勉強になりました. 私が紹介したのは以下の論文, Mohammad Taher Pilehvar, David Jurgens and Roberto Navigli, Align, Disamb

    shintaks
    shintaks 2013/09/08
  • 1