[B! nlp] n4_tのブックマーク

word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog

英辞郎をword2vecに放り込んでみたらちょっと面白かったのでメモを。word2vecについては前回の記事を参照。使ったのはEIJI-138.TXT（最新より１つ古いバージョンです） EDPさんから1980円ぐらいで買えます。 ■semantically-motivated {形} : 意味論的｛いみろんてき｝に動機付けられた ■semantically-restricted {形} : 意味的｛いみてき｝に制限｛せいげん｝された ■semantics {名-1} : 意味論｛いみろん｝、記号論｛きごうろん｝ ■semantics {名-2} : 《コ》〔プログラムの〕動作 ■semantics : 【＠】セマンティックス、【分節】se・man・tics ■semantics course : 意味論｛いみろん｝のコース ■semaphore {名-1} : 手旗信号｛てばたしん

n4_t 2013/09/11

nlp
word2vec

リンク

Deep-learningはラテン語の動詞活用を学習できるか？ Can deep-learning learn latin conjugation? - naoya_t@hatenablog

ラテン語ネタが続きますが工藤さんがぐぐたすで紹介してた word2vec が面白そうだったので。 https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep learning で単語のベクトル表現を学習してくれる。面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。 It was recently shown that the word vectors capture many linguistic regularities, for example vector operations vector('Paris') - vector('France') + vector('Italy') results in a vector that is very close to vector('Rome'), and

n4_t 2013/09/05

リンク

極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。中谷秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【／注】第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基本線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

n4_t 2012/03/15

NLP

リンク

ナイーブベイズ分類器の実装とか（その２）〜新アルバムの楽曲で畑さん／こだまさん分類器を試してみた〜 - naoya_t@hatenablog

1/17のエントリ「ナイーブベイズ分類器の実装とか〜畑さん/こだまさん問題〜」の続編。とあるアーティスト（仮にMとします）の新アルバムが2/29にリリースされたので、前回作ったナイーブベイズ分類器に過去の３アルバムのデータを訓練データとして与え、新アルバムの楽曲を分類してみようかと。新アルバム（仮にDとします）にはH/K作品が計4曲（各2曲）入っていますが、多変数ベルヌーイモデル／多項モデルのどちらを用いても ===================================== Contact + Parade + SAL -> D-Formation ===================================== <Metamorphosing Door>,作詞:こだまさおり → こだまさおりに分類 ◎ <Planet patrol>,作詞:畑亜貴 → 畑亜貴に分

n4_t 2012/03/08

NLP
minorin

リンク

自然言語処理の定番の教科書まとめ - 武蔵野日記

自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべき本というのと、そこから超えていく本というのは違うものであって、どれだけ研究が進んでも、分

n4_t 2010/08/25

nlp

リンク

単語分割器Micterを公開しました - 射撃しつつ前転改

しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

n4_t 2010/07/31

nlp

リンク

Power Iteration Clustering - tsubosakaの日記

岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。また次数行列としてAのi行目の値を合計したd_{ii} = \sum_j A_{ij}を対角成分にもつ対角行列をDとする。このときW:=D^{-1} Aをnormalized affinity matrixと定義する。簡単のためWはフルランクであるとする。この行列はすべての要素が1となる固有ベクトルをもち、この時固有値は1となる。実はこれが最大固有値である(行列Aの行和が1となること+Gershgorin circle theorem(en)より導かれる)。また、行列Wの固有値を1=λ_1>=...>=

n4_t 2010/05/18

nlp

リンク

LWLM: The Latent Words Language Model を試してみた - nokunoの日記

持橋さんのところで公開されているやつを試しました。lwlm, The Latent Words Language Model.mots quotidiens.一番左が元の文章の単語、右に並んでいるのがLWLMによる言い換え後の単語とその確率です。$ mecab -Owakati data/asahi.txt | nkf -e > data/asahi.euc$ ./lwlm-decode data/asahi.euc model.kyoto | nkf -w自民党米国 (1.000)のの (1.000)大島比例 (0.990) 選挙 (0.010)理森区 (0.990) 代表 (0.010)幹事幹事 (1.000)長長 (1.000)はは (1.000)２十 (0.340) 二 (0.270) ２ (0.140) 「 (0.090) 、 (0.080)０四 (0.390)

n4_t 2010/03/23

NLP

リンク

言語処理学会第16回年次大会(NLP2010)

概要言語処理学会第16回年次大会は，東京大学本郷キャンパスで開催します． ○情報処理学会創立50周年記念全国大会との共催について本年次大会は，情報処理学会との共催となり，言語処理学会のアクティビティを専門外の方々に知らしめるチャンスであります．ただ，結果として例年より非会員による発表申し込みが増加することがあり得ます．例年よりは多めの発表が可能になるよう，会場等を手配しておりますが，極端な場合にはすべての発表申し込みに発表時間を割り当てることができなくなる可能性があります．そうした場合，申し込みが遅い発表は，ご希望の発表形式以外で発表していただく，あるいは，発表ができなくなることもあり得ますが，ご了承ください． ○大会発表募集例年通り，自然言語に関する理論から応用まで幅広い研究発表を募集します．とくに，言語学，教育学，心理学など，日頃「言語処理」とは縁が薄いと感じておられる人

n4_t 2009/11/29

2010.3.8-12

NLP

リンク

未解読のインダス文字を、人工知能で解析 | WIRED VISION

前の記事　スレの状況がわかるツール：「多様な意見」を視覚化パソコンの瞬間オン・オフも可能に：強誘電体トランジスターに新技術　次の記事未解読のインダス文字を、人工知能で解析 2009年4月24日 Brandon Keim J.M. Kenoyer/Harappa.com 多くの考古学者の挑戦を退けてきた古代文字が、人工知能にその秘密の一部を見破られた。 4000年前のインダス文明で使われていた記号をコンピューターで分析したところ、これらの記号が話し言葉を表している可能性があることがわかったのだ。「含まれている文法構造は、多くの言語で見られるものと共通しているようだ」と、ワシントン大学のコンピューター科学者、Rajesh Rao博士は語っている。インダス文字は、紀元前2600年から紀元前1900年に今のパキスタン東部からインド北部にかけて使われていた文字で、エジプト文明やメソポタミア文

n4_t 2009/04/29

nlp

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

n4_t 2009/04/27

Google N-gram 検索システム (Search System for Google N-gram Corpus)

nlp

リンク

オンラインEMアルゴリズム - DO++

EMアルゴリズム（Expectation Maximizationアルゴリズム、期待値最大化法、以下EMと呼ぶ）は、データに観測できない隠れ変数（潜在変数）がある場合のパラメータ推定を行う時に有用な手法である。 EMは何それという人のために簡単な説明を下の方に書いたので読んでみてください。 EMのきちんとした説明なら持橋さんによる解説「自然言語処理のための変分ベイズ法」や「計算統計 I―確率計算の新しい手法統計科学のフロンティア 11」が丁寧でわかりやすい。 EMは教師無学習では中心的な手法であり、何か観測できない変数を含めた確率モデルを作ってその確率モデルの尤度を最大化するという枠組みで、観測できなかった変数はなんだったのかを推定する場合に用いられる。例えば自然言語処理に限っていえば文書や単語クラスタリングから、文法推定、形態素解析、機械翻訳における単語アライメントなどで使われる。

n4_t 2009/04/17

nlp
em

リンク

教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

n4_t 2009/03/27

nlp

リンク

http://www.congre.co.jp/imttsympo/program/index.html

n4_t 2009/03/20

発表資料が上がってきました

nlp

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

n4_t 2009/03/15

nlp

リンク

自然言語処理関連の学会・研究会 (国内編) - まきもと＠ねっとわーく

ものすごくご無沙汰のエントリになります*1。春ということで、これから自然言語処理を始めようという方もたくさんいると思います。そういった方々がどのような学会や研究会を調べれば良いのか紹介したいと思います。自然言語処理は機械学習、人工知能、データベース、言語学、認知心理学、音声言語処理などの境界分野としての側面もあるので、一概にどこからどこまでが自然言語処理の範疇であると明言はできませんが、取り敢えず、メイントピックとして自然言語処理を掲げていて、NLPの研究者が関わるであろう団体を並べています。言語処理学会 (NLP)その名の通り、自然言語処理をメイントピックとして扱う学会です。ジャーナル『自然言語処理』の刊行と年に一度の言語処理学会年次大会の開催を行なっています。年次大会には国内 (と一部国外) の自然言語処理研究者が集まる国内最大規模の自然言語処理を中心とした会議です。発表は査読なし

n4_t 2009/03/15

nlp

リンク

the Voynich Manchuscript a mystery

The Natural Language Group at the USC Information Sciences Institute conducts research in natural language processing and computational linguistics, developing new linguistic and mathematical techniques to make better techno logy. We have a wide range of ongoing projects, including those related to statistical machine translation, question answering, summarization, ontologies, information retrieval

n4_t 2009/03/14

nlp

リンク

NLP(自然言語処理)研究者をスコアリングしてみた - Unchained Life

IR研究者をスコアリングしてみた - 睡眠不足？！ http://d.hatena.ne.jp/sleepy_yoshi/20090215/p1 この記事を読んでNLP分野ではどうだろう、と思ったのでやってみました。対象とした会議は2001年~2008年のACLとEM NLPです(年によっては他会議との併設含む)。 cf. DO++: 自然言語処理の学会 http://hillbig.cocolog-nifty.com/do/2008/04/post_fe44.html ACL anthologyから以下のページを利用してデータを取得 ACL: http://www.aclweb.org/anthology-new/P/P08/ (2008年の場合。08の部分を変えれば他の年が見られる) EM NLP: http://www.aclweb.org/anthology-new/sigdat.h

n4_t 2009/03/14

nlp

リンク

CS 288: Statistical Natural Language Processing

CS 288: Statistical Natural Language Processing, Spring 2009 Instructor: Dan Klein Lecture: Monday and Wednesday, 2:30pm-4:00pm, 405 Soda Hall Office Hours: Monday and Wednesday 4pm-5pm in 775 Soda Hall. Announcements 1/20/09: The course newsgroup is ucb.class.cs288. If you use it, I'll use it! 1/20/09: The previous website has been archived. 1/24/09: Assignment 1 is posted. 1/27/09: Corrected

n4_t 2009/03/14

nlp

リンク

Foundations of Statistical Natural Language Processing

This is the companion website for the following book. Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. Interested in buying the book? Some more information about the book and sample chapters are available. If you are here to look up something that is mentioned in the book, click on the appropriate chapter link below. A l

n4_t 2009/03/14

nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

nlpに関するn4_tのブックマーク (20)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス