タグ

nlpに関するn4_tのブックマーク (20)

  • word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog

    英辞郎をword2vecに放り込んでみたらちょっと面白かったのでメモを。word2vecについては前回の記事を参照。 使ったのはEIJI-138.TXT(最新より1つ古いバージョンです) EDPさんから1980円ぐらいで買えます。 ■semantically-motivated {形} : 意味論的{いみろん てき}に動機付けられた ■semantically-restricted {形} : 意味的{いみ てき}に制限{せいげん}された ■semantics {名-1} : 意味論{いみろん}、記号論{きごうろん} ■semantics {名-2} : 《コ》〔プログラムの〕動作 ■semantics : 【@】セマンティックス、【分節】se・man・tics ■semantics course : 意味論{いみろん}のコース ■semaphore {名-1} : 手旗信号{てばた しん

    word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog
  • Deep-learningはラテン語の動詞活用を学習できるか? Can deep-learning learn latin conjugation? - naoya_t@hatenablog

    ラテン語ネタが続きますが 工藤さんがぐぐたすで紹介してた word2vec が面白そうだったので。 https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep learning で 単語のベクトル表現を学習してくれる。 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。 It was recently shown that the word vectors capture many linguistic regularities, for example vector operations vector('Paris') - vector('France') + vector('Italy') results in a vector that is very close to vector('Rome'), and

    Deep-learningはラテン語の動詞活用を学習できるか? Can deep-learning learn latin conjugation? - naoya_t@hatenablog
  • 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

    来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】 言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【/注】 第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

    極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足
    n4_t
    n4_t 2012/03/15
  • ナイーブベイズ分類器の実装とか(その2)〜新アルバムの楽曲で畑さん/こだまさん分類器を試してみた〜 - naoya_t@hatenablog

    1/17のエントリ「ナイーブベイズ分類器の実装とか 〜畑さん/こだまさん問題〜」の続編。 とあるアーティスト(仮にMとします)の新アルバムが2/29にリリースされたので、前回作ったナイーブベイズ分類器に過去の3アルバムのデータを訓練データとして与え、新アルバムの楽曲を分類してみようかと。 新アルバム(仮にDとします)にはH/K作品が計4曲(各2曲)入っていますが、多変数ベルヌーイモデル/多項モデルのどちらを用いても ===================================== Contact + Parade + SAL -> D-Formation ===================================== <Metamorphosing Door>,作詞:こだまさおり → こだまさおりに分類 ◎ <Planet patrol>,作詞:畑亜貴 → 畑亜貴に分

    ナイーブベイズ分類器の実装とか(その2)〜新アルバムの楽曲で畑さん/こだまさん分類器を試してみた〜 - naoya_t@hatenablog
  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
    n4_t
    n4_t 2010/08/25
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
    n4_t
    n4_t 2010/07/31
  • Power Iteration Clustering - tsubosakaの日記

    岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。 背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。 また次数行列としてAのi行目の値を合計したd_{ii} = \sum_j A_{ij}を対角成分にもつ対角行列をDとする。 このときW:=D^{-1} Aをnormalized affinity matrixと定義する。簡単のためWはフルランクであるとする。 この行列はすべての要素が1となる固有ベクトルをもち、この時固有値は1となる。実はこれが最大固有値である(行列Aの行和が1となること+Gershgorin circle theorem(en)より導かれる)。また、行列Wの固有値を1=λ_1>=...>=

    Power Iteration Clustering - tsubosakaの日記
    n4_t
    n4_t 2010/05/18
  • LWLM: The Latent Words Language Model を試してみた - nokunoの日記

    持橋さんのところで公開されているやつを試しました。lwlm, The Latent Words Language Model.mots quotidiens.一番左が元の文章の単語、右に並んでいるのがLWLMによる言い換え後の単語とその確率です。$ mecab -Owakati data/asahi.txt | nkf -e > data/asahi.euc$ ./lwlm-decode data/asahi.euc model.kyoto | nkf -w自民党 米国 (1.000)の の (1.000)大島 比例 (0.990) 選挙 (0.010)理森 区 (0.990) 代表 (0.010)幹事 幹事 (1.000)長 長 (1.000)は は (1.000)2 十 (0.340) 二 (0.270) 2 (0.140) 「 (0.090) 、 (0.080)0 四 (0.390)

    n4_t
    n4_t 2010/03/23
  • 言語処理学会第16回年次大会(NLP2010)

    概要 言語処理学会第16回年次大会は,東京大学郷キャンパスで開催します. ○情報処理学会創立50周年記念全国大会との共催について 年次大会は,情報処理学会との共催となり,言語処理学会のアクティビティを専門外の方々に知らしめるチャンスであります. ただ,結果として例年より非会員による発表申し込みが増加することがあり得ます. 例年よりは多めの発表が可能になるよう,会場等を手配しておりますが,極端な場合にはすべての発表申し込みに発表時間を割り当てることができなくなる可能性があります. そうした場合,申し込みが遅い発表は,ご希望の発表形式以外で発表していただく,あるいは,発表ができなくなることもあり得ますが,ご了承ください. ○大会発表募集 例年通り,自然言語に関する理論から応用まで幅広い研究発表を募集します. とくに,言語学教育学,心理学など,日頃「言語処理」とは縁が薄いと感じておられる人

    n4_t
    n4_t 2009/11/29
    2010.3.8-12
  • 未解読のインダス文字を、人工知能で解析 | WIRED VISION

    前の記事 スレの状況がわかるツール:「多様な意見」を視覚化 パソコンの瞬間オン・オフも可能に:強誘電体トランジスターに新技術 次の記事 未解読のインダス文字を、人工知能で解析 2009年4月24日 Brandon Keim J.M. Kenoyer/Harappa.com 多くの考古学者の挑戦を退けてきた古代文字が、人工知能にその秘密の一部を見破られた。 4000年前のインダス文明で使われていた記号をコンピューターで分析したところ、これらの記号が話し言葉を表している可能性があることがわかったのだ。 「含まれている文法構造は、多くの言語で見られるものと共通しているようだ」と、ワシントン大学のコンピューター科学者、Rajesh Rao博士は語っている。 インダス文字は、紀元前2600年から紀元前1900年に今のパキスタン東部からインド北部にかけて使われていた文字で、エジプト文明やメソポタミア文

    n4_t
    n4_t 2009/04/29
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    n4_t
    n4_t 2009/04/27
    Google N-gram 検索システム (Search System for Google N-gram Corpus)
  • オンラインEMアルゴリズム - DO++

    EMアルゴリズム(Expectation Maximizationアルゴリズム、期待値最大化法、以下EMと呼ぶ)は、データに観測できない隠れ変数(潜在変数)がある場合のパラメータ推定を行う時に有用な手法である。 EMは何それという人のために簡単な説明を下の方に書いたので読んでみてください。 EMのきちんとした説明なら持橋さんによる解説「自然言語処理のための変分ベイズ法」や「計算統計 I―確率計算の新しい手法 統計科学のフロンティア 11」が丁寧でわかりやすい。 EMは教師無学習では中心的な手法であり、何か観測できない変数を含めた確率モデルを作ってその確率モデルの尤度を最大化するという枠組みで、観測できなかった変数はなんだったのかを推定する場合に用いられる。 例えば自然言語処理に限っていえば文書や単語クラスタリングから、文法推定、形態素解析、機械翻訳における単語アライメントなどで使われる。

    オンラインEMアルゴリズム - DO++
    n4_t
    n4_t 2009/04/17
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
    n4_t
    n4_t 2009/03/27
  • http://www.congre.co.jp/imttsympo/program/index.html

    n4_t
    n4_t 2009/03/20
    発表資料が上がってきました
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
    n4_t
    n4_t 2009/03/15
  • 自然言語処理関連の学会・研究会 (国内編) - まきもと@ねっとわーく

    ものすごくご無沙汰のエントリになります*1。春ということで、これから自然言語処理を始めようという方もたくさんいると思います。そういった方々がどのような学会や研究会を調べれば良いのか紹介したいと思います。 自然言語処理は機械学習人工知能、データベース、言語学、認知心理学、音声言語処理などの境界分野としての側面もあるので、一概にどこからどこまでが自然言語処理の範疇であると明言はできませんが、取り敢えず、メイントピックとして自然言語処理を掲げていて、NLPの研究者が関わるであろう団体を並べています。 言語処理学会 (NLP)その名の通り、自然言語処理をメイントピックとして扱う学会です。ジャーナル『自然言語処理』の刊行と年に一度の言語処理学会年次大会の開催を行なっています。年次大会には国内 (と一部国外) の自然言語処理研究者が集まる国内最大規模の自然言語処理を中心とした会議です。発表は査読なし

    n4_t
    n4_t 2009/03/15
  • the Voynich Manchuscript a mystery

    The Natural Language Group at the USC Information Sciences Institute conducts research in natural language processing and computational linguistics, developing new linguistic and mathematical techniques to make better technology. We have a wide range of ongoing projects, including those related to statistical machine translation, question answering, summarization, ontologies, information retrieval

    the Voynich Manchuscript a mystery
    n4_t
    n4_t 2009/03/14
  • NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life

    IR研究者をスコアリングしてみた - 睡眠不足?! http://d.hatena.ne.jp/sleepy_yoshi/20090215/p1 この記事を読んでNLP分野ではどうだろう、と思ったのでやってみました。 対象とした会議は2001年~2008年のACLとEMNLPです(年によっては他会議との併設含む)。 cf. DO++: 自然言語処理の学会 http://hillbig.cocolog-nifty.com/do/2008/04/post_fe44.html ACL anthologyから以下のページを利用してデータを取得 ACL: http://www.aclweb.org/anthology-new/P/P08/ (2008年の場合。08の部分を変えれば他の年が見られる) EMNLP: http://www.aclweb.org/anthology-new/sigdat.h

    NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life
    n4_t
    n4_t 2009/03/14
  • CS 288: Statistical Natural Language Processing

    CS 288: Statistical Natural Language Processing, Spring 2009 Instructor: Dan Klein Lecture: Monday and Wednesday, 2:30pm-4:00pm, 405 Soda Hall Office Hours: Monday and Wednesday 4pm-5pm in 775 Soda Hall. Announcements 1/20/09:  The course newsgroup is ucb.class.cs288. If you use it, I'll use it! 1/20/09:  The previous website has been archived. 1/24/09:  Assignment 1 is posted. 1/27/09:  Corrected

    n4_t
    n4_t 2009/03/14
  • Foundations of Statistical Natural Language Processing

    This is the companion website for the following book. Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. Interested in buying the book? Some more information about the book and sample chapters are available. If you are here to look up something that is mentioned in the book, click on the appropriate chapter link below. A l

    n4_t
    n4_t 2009/03/14
  • 1