タグ

NLPに関するsleepy_yoshiのブックマーク (158)

  • 自然言語処理のトップカンファレンス - 武蔵野日記

    NAACL HLT 2010 の accepted papers のリストが今日出た。 知っている名前があるかなと思ったが、日人ひとりもいないようだ。 (訂正) 松研先輩の tetsu-na さんが通っているようだ。@cacahoさん情報どうもありがとうございます! MSR 時代のインターン同期とかたくさんいる。やはりカリフォルニア開催だと気合い入れて出してくるからだろうか……。他にも出していると聞いた人が通っていないのを見ると、かなり厳しかった模様。以前 masayu-a さんが日記で(現在はてなダイアリーに引っ越したようだが) NAACL > ACL >> (越えられない壁) >> CoNLL > EMNLP >> (越えられない壁) >> COLING-ACL = ACL-IJCNLP > COLING(ICCL) = >> (越えられない壁) >> EACL > IJCNLP

    自然言語処理のトップカンファレンス - 武蔵野日記
  • NLTK Bookで教師なし形態素解析 - nokunoの日記

    意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

  • xyzzy のじかん - tiny-segmenter - xyzzy Lisp だけで実装されたコンパクトな分かち書きソフトウェア

    パッケージ名 tiny-segmenter バージョン 1.1.0 ライセンス 修正 BSD 更新日 2008-07-19 18:31:38 カテゴリ Development、Libraries、Text Processing 依存ライブラリ なし tiny-segmenter は TinySegmenter (Javascript だけで実装されたコンパクトな分かち書きソフトウェア) を xyzzy lisp に移植したものです。 上記 URL によれば以下のような特徴があります。 日語の新聞記事であれば文字単位で 95% 程度の精度で分かち書きが行える 分かち書きの単位は MeCab + ipadic と互換 辞書を使っていない (機械学習のみ) ダウンロード ダウンロード ドキュメント 変更履歴 変更の詳細および過去の履歴は NEWS を参照してください。 2008-07

  • かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記

    id:tkng さんが、現状の ChaIME について紹介して、これからの開発研究体制について話したい、ということで、京大に集まってミーティング。京大の森さんたちが作っている変換エンジン KAGAMI も9月くらいから格稼働している(少なくとも森さんは常用している)そうで、データやサーバ、ライブラリなど共通化できるところは共通化しましょう、というわけで、総勢5人でお昼から夕(学生さんは free pizza と free beer (笑))を挟んで11時近くまで、スライド使ったりデモしたりコード見たり雑談したり、いろいろ。 今後の方針については、tkng さんがものすごくがんばってくれてメモリ・ディスク使用量、処理時間ともに1/25くらいになって使えるようになってきた(現在 tkng さんと自分の2人が常用している)実用的にしたいと思う反面、実用的にするためにごちゃごちゃした変更を加え

    かな漢字変換エンジン開発で大事なのはデータと API - 武蔵野日記
  • トータルデータ解析サービス「なずき」

    国内唯一のTwitter公式パートナーシップにより Twitter全量データをご提供 株式会社NTTデータは、2012年9月27日に米Twitter社とTweetデータ提供に関するFirehose契約を締結致しました。これにより、米Twitter社から全量・全言語のTweetデータをリアルタイムに受領し、Twitter社の公開APIよりも大量・高度・高付加価値なTweetデータをご提供可能なサービスプラットフォームを構築しております。 最上位のTwitter Official Data Partnerとして、このプラットフォームを基軸に、ユーザー企業様のソーシャルメディア情報活用を支援していきます。

    トータルデータ解析サービス「なずき」
  • [O] Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文

    Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文 Tweet [日記] なんかあんまり日語の言及が無いですけど、「Opinion mining and sentiment analysis」というサーベイ論文が書籍化されていて、おまけにその内容が無料で閲覧できるようになっています。 - Opinion mining and sentiment analysis (survey) -- http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html Bo Pang and Lillian Lee Foundations and Trends in Information Retrieval 2(1-2), pp. 1–1

  • 学生は偉そうにするべきである。-- 自然言語処理合同研究会2009 - 武蔵野日記

    自然言語処理合同研究会 2009に参加してくる。この研究会、田中穂積先生を慕う人たちが集まって、学生同士他のレベル高い研究室の雰囲気を知るのはよいので交流させよう、という目的で発足した会のようで、かなりクローズドな性格が強かったはずなのだが、現在は10近い大学から参加者がおり、どんどん肥大化しているのだが、会場は東工大(大岡山キャンパス)・NAIST・JAISTの3大学を順番に回っていて、今回は東工大の番。 さて、その合同研だが、今回は東工大の杉山さんが「確率密度比」を用いた機械学習の新たなアプローチという題で講演をしてくださった。内容は id:syou6162 さんがまとめてくれているので、そちらを参考されたく。自分的には確率密度比の話を最初に聞いたのは2年前のことだったが、そのときと比べても理論がけっこう進んでいるようで、おもしろいなあ。 ポスター発表のあと、懇親会。開会の辞に代えて、

    学生は偉そうにするべきである。-- 自然言語処理合同研究会2009 - 武蔵野日記
  • Hal Daumé III

  • 田中穂積先生の思い出

    (注意: この文章は、もと東京工業大学教授であった工学者の田中穂積先生について記しています。 そのほかの田中穂積については、 田中穂積 (曖昧さ回避) のページをご覧ください) [田中研究室の写真] (2009/8/1) きょう、田中先生の告別式が終わった。 正直いって、とても悔しい。なぜ悔しいかというと…いやそのことを話すのはやめよう。しかし、 あまりに悔しいので、誰かにこの感覚を話さないことには気がすまない。 でも周囲に誰もそんなことを聞きたがる人はいないので、 しょうがなくここに書いておく。 (2009/10/4) この文章は新山がなによりも自分のために書いたものである。 新山はつねづね、人が死んだあとに (もはや存在しない人物に対して) 親切な言葉をかけるほど偽善的なこともないだろうと思っていたので、 ここでは田中先生に面と向かって言いたかったようなことは一切書かない。 これは追悼

  • 看護記録のかな漢字変換 - 武蔵野日記

    ジャーナル書いたりなんだり、あと松研の合宿が今週土曜と日曜なので、その準備とかなんだとかで、今週は京都と奈良を往復している暇はないのだが、せっかく京都だし、やっぱり行くしかない、と思って足を運ぶ。 午前中の若手の会セッションは NAIST 松研の M1 の人たちががんばっていたようだ。@shirayuくんが Google語 N グラムを使った対話システムについて(他のメンバーは重複を除くと @o_bon, @hayatom, @tettsyun の3人(敬称略))、@rytkturくんがペルシャ語の辞書引きシステムについて、そして@smlyくんが Probabilistic HITS を使った文書要約について。みなさん M1 なのにこんなばしばしポスター作って話していてすごいなぁ。 自分的に今日聞きたかったのは 利用過程で得られる言語情報を活用する音声言語処理システム http:

    看護記録のかな漢字変換 - 武蔵野日記
  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
  • mots quotidiens.PPM, 言語モデル, Burrows-Wheeler Transform

    電通大の情報理論の 韓太舜先生 の最終講義が3月にあって, スライドが ここから 見られるのを知った。 院生のときに 『情報と符号化の数理』 (岩波書店 応用数学)を読んで, その明晰な内容と込められた哲学に感動した ので, 感慨深いです。 16ページ目の内容が当なら, Weber-Fechnerの法則が理論から導けるという ことなのだろうか.. フルテキストは1975年なので, 閲覧制限がかかっていて見れないのが残念。 他も, 全体的に非常に興味深いのですが, とりあえず最後がワラタ。(笑) 論文の準備のためにPPM,PPM*,CTWなど圧縮関係の論文を(完璧ではないと 思いますが), 色々読んでみた。 PPMについては, 北先生のところで1998年に, PPM*を使った言語モデルの話 が出ています。 さて, PPMは岡野原君が 言語モデルと 似ている という話を書いているのですが,

  • べた書きかな文の分かち書き再考 - 武蔵野日記

    最近仕事の行き帰り、片道自転車が40分あるので、研究というかなんというかいろいろ頭の体操をしながら自転車を漕いでいるのだが、今日は @sassano さんに教えてもらって文節をどう区切るかを再読する。いや、N文節最長一致法というヒューリスティックがどういうものだったか(アルゴリズム的にはなにをしていることに相当するのか)考え始めてしまって、なんなんだろうなぁ、と思って……。(もしかしてこのヒューリスティックを統計的な手法で説明できたらおもしろそうだな、と考えたのが事の発端) 基文献としては以下の3点。いずれも(かな漢字交じり文ではなく)かなだけからなる入力をいかに分かち書きするか、という問題に取り組んでいる。前読んだ気がするのだがすっかり忘れていた。かな漢字交じり文であれば漢字からひらがなやカタカナになったり、数字になったりするという、字種の切れ目の情報が使えるのだが、べた書きかな文は字

    べた書きかな文の分かち書き再考 - 武蔵野日記
  • https://conferences.inf.ed.ac.uk/emnlp09/accepted-papers.txt

    sleepy_yoshi
    sleepy_yoshi 2009/06/08
    EMNLP2009
  • NAACL/HLT 2009報告 - DO++

    コロラド・ボルドーで開催されたNAACL/HLT 2009に行ってきました。 NAACLは自分の中での分類では自然言語処理の学会で統計的な手法とかが多い学会に思える(それに対しヨーロッパではEACLでは文法とか言語理論とかが多い)。比較的自分にあう学会。 開催地となったコロラド大ボルダー校はとてもきれいなキャンパスで(、「全米で最も美しいキャンパス」の4位にランキング)、宇宙飛行士をたくさん輩出してたり、ノーベル物理学賞を4名輩出するなど、研究レベルも高いそうです。 で、学会は適当に休みながらまったり聞いていたのですが全体的に教師無学習に関する話が多かったような気がします。教師有学習による言語処理がある程度成熟してきているのに対し、教師無の方はまだまだ伸びしろが多いので研究がしやすいのでしょう。教師無に利用するモデルも、単純な混合分布から、様々な分布が入り乱れる複雑なグラフィカルモデルにな

    NAACL/HLT 2009報告 - DO++
  • Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit

    Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P

  • Domain adaptation vs. transfer learning

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) The standard classification setting is a input distribution p(X) and a label distribution p(Y|X). Roughly speaking, domain adaptation (DA) is the problem that occurs when p(X) changes between training and test. Transfer learning (TL) is th

  • http://www.kecl.ntt.co.jp/icl/lirg/links-j.php

  • 英語の単語を原形に戻す WordNet-based lemmatizer - mtbrの日記

    nltk の実装を移植する。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader.morphy 使う情報: WordNet の ${WNHOME}/dict/*.exc 不規則変化 WordNet の ${WNHOME}/dict/index.* 語基 品詞ごとの接尾辞ルール (上記ソースにべたがきされている) #! /usr/bin/env ruby # -*- coding: utf-8; mode: ruby -*- # port from nltk.corpus.reader.wordnet.morphy # http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.read

    英語の単語を原形に戻す WordNet-based lemmatizer - mtbrの日記
  • Javaで実装された形態素解析器 GoSen - mtbrの日記

    GoSen がよさげなので使ってみる。 プロジェクトホームページ(オリジナルは到達不能) http://web.archive.org/web/20071224025014/http://itadaki.org/wiki/index.php/GoSen GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab. GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folde

    Javaで実装された形態素解析器 GoSen - mtbrの日記