sassanoのブックマーク - はてなブックマーク

タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ文書分類でneologdとmecabを比較したまとめ Sentencepieceの紹介記事を読んだニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。自分用の要約するとニューラル言語処理では語彙数が大きくなると扱いにくい単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる尤度を最大にするエントロピー圧縮の一部と見なせるスペースもメタ文字に置き換えて生文を食わせることにより、detokenizeが言語によらず簡単になる翻訳等のタスクで助かる! こういうのが必要なくなる単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている従来の

sassano 2017/04/12

リンク

はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

sassano 2016/06/27

Perl

リンク

NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog

エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる研究をする上で必要なリソース(計算機、データなど)が十分にある足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる自然言語処理の研究をする上でかなり重要などなど、とても研究しやすい環境です。AAAIやEM NLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた

sassano 2016/04/04

リンク

「マイクロソフトでは出会えなかった天職」を読んだ - yasuhisa's blog

一気に読んでしまった。ぶるぶるきた。これは間違いなく良書。マイクロソフトでは出会えなかった天職僕はこうして社会起業家になった作者: ジョンウッド,矢羽野薫出版社/メーカー: 武田ランダムハウスジャパン発売日: 2007/09/21メディア: 単行本購入: 39人クリック: 489回この商品を含むブログ (125件) を見るMicrosoftの幹部社員だった著者がMicrosoftを辞めてNGO(Room to Read)を立ち上げたことに関することが書かれているのだが、色々な方面でのエッセンスが詰まっていた。Microsoftでインターンやっていながら読むのはどうよと一瞬思ってしまったが、なるほどこれはMicrosoftで幹部をやっていた彼だからこそできる仕事なんだなと思ったのでMicrosoftにインターン行っている人(もちろんそれ以外の人にもw)にもお勧めできる。気にいった言

sassano 2011/10/21

Microsoft

リンク

EMNLPで気になる論文 - yasuhisa's blog

メモメモ。談話成分多め。上に行くほど読みたい度合いが強い。 Structured Relation Discovery using Generative Models (pdf) “X was born in Y” and “X is from Y”"というのが同じような関係から生成されると考えてトピックモデルで定式化 Unsupervised Structure Prediction with Non-Parallel Multilingual Guidance (pdf) 教師なし学習を多言語混ぜてやる系の話。Methodの付近だけでもチェックしておく Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities (pdf) Approximate Sc

sassano 2011/07/26

EMNLP
2011

リンク

最近読んだ本 - yasuhisa's blog

本の内容というより個人的な感想なので参考にはならないと思われ。というか内容についてほとんど言及していな(ry。自分の読んだ本メモです。イシューからはじめよ―知的生産の「シンプルな本質」作者: 安宅和人出版社/メーカー: 英治出版発売日: 2010/11/24メディア: 単行本（ソフトカバー）購入: 48人クリック: 660回この商品を含むブログ (142件) を見る良本。コンサル系な本は食傷気味だが、この本は研究にも通じるところがあるなーとか思いながら読んでいると著者は普通に研究もされていた方だった。夢をかなえるゾウ作者: 水野敬也出版社/メーカー: 飛鳥新社発売日: 2007/08/11メディア: 単行本購入: 80人クリック: 1,301回この商品を含むブログ (625件) を見る読みやすかったので一気に読んだ。ズキズキくる...。自然言語処理の基礎作者: 奥村学出版社

sassano 2011/05/30

リンク

関数解析メモ - yasuhisa's blog

カーネル法入門を読むために関数解析について勉強したりしているのであります。ヒルベルト!! カーネル法入門―正定値カーネルによるデータ解析 (シリーズ多変量データの統計科学) 作者: 福水健次出版社/メーカー: 朝倉書店発売日: 2010/11/01メディア: 単行本クリック: 19回この商品を含むブログ (10件) を見る工学のための関数解析 (工学のための数学) 作者: 山田功出版社/メーカー: 数理工学社発売日: 2009/05メディア: 単行本購入: 1人クリック: 7回この商品を含むブログ (2件) を見るいつもながら関数解析初心者なので間違いまくりだと思いますが、どっかにメモっておかないとすぐ忘れるのでメモ。id:mrcarrot君にはあれこれと教えてもらいながら勉強しています、ありがとうございます。なんで関数解析(ヒルベルト空間論)?大学1年とかでやる線形代数はR^Nな

sassano 2011/05/18

リンク

とあるlabのカーネル輪講 - yasuhisa's blog

とあるlab*1のカーネル輪講に参加させてもらうことになったので、ちょこちょこ勉強する予定。カーネル法入門―正定値カーネルによるデータ解析 (シリーズ多変量データの統計科学) 作者: 福水健次出版社/メーカー: 朝倉書店発売日: 2010/11/01メディア: 単行本クリック: 19回この商品を含むブログ (10件) を見るカーネル法についてはPRMLより前に赤穂さんの本で勉強して大変分かりやすかった(SVMとかリプレゼンター定理とかGaussian Process(そのときのメモ)とかこの本で勉強させてもらったなぁという記憶がある)のだが、後半の理論の付近で脱落してしまった記憶があるのでこの輪講でこの辺も理解していきたいなぁ。最近うちのlabでカーネルカーネルした話はあんまり聞かないし、分野的にカーネルPCAとかカーネルCCAとかあまり使う機会がない(CCAのほうは自分がやってない

sassano 2011/04/18

リンク

AAAI2011に採択されました - yasuhisa's blog

ということで8月はサンフランシスコです!やっほい!もうなんというか共著者の人に感謝です。 AAAI-11: Twenty-Fifth Conference on Artificial Intelligence 基本的には年次大会のときの話(原稿、スライド)を英語にした感じです*1。そういうわけで(?)自分はAI and the Webというspecial trackで出しました。 AAAI-11: Artificial Intelligence and the Web Special Track 国際会議に出るの自体は去年にEM NLPに出ているので初めてではないです(1日目、2日目の写真、1日目、2日目の内容、3日目の内容)。が、去年はNAISTの特待生制度のおこぼれのような感じで、発表なし聴講のみで参加というあれな状態でした...。EM NLPが終わってMITを離れるとき「今度はspeak

sassano 2011/04/17

AAAI
2011

リンク

一難去ってまた一難 - yasuhisa's blog

しばらく日記を書いていなかったようだ。AAAIの原稿の締切でした*1。なんとかsubmitできました、関係者の皆様ありがとうございました。Abstractが一文字も残らず真っ赤に添削してもらったり(噂に聞いたことはあったけど、本当になってるとびっくりした)、年次大会で固まったかに見えた構成も結構変わったりなどしまして、(自分で言うのもなんだけど)初稿と比べると比較にならないくらい分かりやすい論文になったんじゃないかなと思います(だから通ってくれ...!!!)。さて、今後。就活。希望しているところの説明会も一通り終わった感じで、そろそろESを書いて実際に面接が始まろうかという時期。ES真面目に書くと結構時間を取られる*2&気力を使うのであなどれない*3。研究進めながらってのもそれに拍車をかけているんだけど、ここは頑張りどころである。。。研究。 3/23締切のEM NLP向けのネタを準備し

sassano 2011/02/09

リンク

ちいさくなーれ☆ - yasuhisa's blog

ほとんと丸一日格闘していたら精神が崩壊した。今度から6ページ以上書けるところにのみ投稿しようと思う(冗談...のはず)。 table、algorithm、referenceはfootnotesize にするけど、思ったよりは縮まない。。。 \bibliographystyle{jplain} {\footnotesize \bibliography{ref} } \begin{center}より\centering としたほうが空白が少なくて済む。\begin{center}は本文中で使われることが主な目的だからそうなったんだそうな。図とキャプションの余白 - M．O．S．な日々数式関係を小さくしたい英語の文字サイズとかは \usepackage{times} とすると結構縮むらしいが \usepackage{mathptmx} とすると数式関係も小さくなってくれた。余白の設定 g

sassano 2011/01/20

TeX

リンク

とあるモデルのMCMC - yasuhisa's blog

飽きもせずにGibbs Samplingとかばっかりやってますが、久しぶりにはまった。離散確率分布とかからサンプリングするのにrandとかを使ってたんだけど、これがとてもとてもとてもいけなかった。CとかC++のrandは線形合同法で実装されているとかで周期性が問題になる場合があるが、これがとてもとてもとても問題になった。対数尤度を見てるとそれなりに収束したのかなと思ってとあるF値を観察していたんだけど、こんな感じの推移を示した。ちなみに、これは10個の平均をplotしたものである。平均してこれである。死んでしまえ。 200くらいで周期があるように見うけられたので、(半日くらい経って)boostのメルセンヌツイスターに切り変えてみた。これである。 MCMCするときにrandは使っちゃだめだよっていうのは常識なんですよね、きっと。ようやく身を持って勉強いたしましたまる。

sassano 2010/12/18

リンク

#70 A Mixture Model with Sharing for Lexical Semantics - yasuhisa's blog

Joseph Reisinger and Raymond Mooney. 2010, In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EM NLP '10). Association for Computational Linguistics, Morristown, NJ, USA, 1173-1182. 意味談話勉強会にて自分が紹介。語の類似度をはかるというのはNLPでは重要なこと(でかつ難しいこと)である。高次元空間において単語がどこにいるかだけを一点で決めてしまうと、bankのような多義語(この論文でいうところのhomonymousな単語)の位置を正確に記述できていないことが分かる。既存の研究("Clustering my Committee"、"mu

sassano 2010/11/17

EMNLP
2010

リンク

依存構文解析(MST parserとLIP) - yasuhisa's blog

前回の続きと今回の資料。係り受けの問題をちょっと違う見方で見てみる。 Graph-based Method Integer Linear Programming Method Span-based Method こっちは次回らしい(Eisnerアルゴリズム => この前岩立さんのチュートリアルがあった) Graph-based Method最大全域木(MST)をbaseにしたもの。MST parserとも呼ばれる。今までのparsingと全然違う考え方(EM NLP 2005)。 spanning treeだとprojectiveに限定されない(交差を許す) よしあしがある交差を許すと、交差が逆に悪さをする場合もあるので transition baseのものだと途中で間違うとボロボロになる MST baseのものだと全体最適化なのでそういうのに強い edgeのコストの決め方は? depen

sassano 2010/10/29

リンク

Eisnerアルゴリズムのチュートリアル - yasuhisa's blog

III期初のD-Lec。岩立さんによるEisnerアルゴリズムのチュートリアル。今日の午前に松本先生の依存構造解析とかの授業があった後なので、すごくよいタイミング。Eisnerアルゴリズムは依存構造解析を行なうためのアルゴリズムの1つで言語に依存しない Projectiveな係り受けを仮定 Graph-basedなアルゴリズムでDPを用いて効率よく全探索するので、Shift-Reduceなどと比べると解析精度重視なものである。EisnerアルゴリズムにはFirst-order、Second-orderなど色々あるが、N-th orderだと同時にN個の係り受け関係を見て、それ以外の係り受け関係は独立である、という風な考え方。個々の係り受け関係にスコアを付けて、その総和が最大になるように係り受けの組み合わせを見ていく。係り受けの組み合わせを全部見るが、CKYアルゴリズムのようなDPを採用

sassano 2010/10/23

リンク

EMNLP 2010一日目、二日目の写真 - yasuhisa's blog

デジカメが行方不明だったためiPhone 3Gのしょぼいカメラでお送りします(kodai-tがデジカメ持ってたので、その写真もらったら追加するかも)。ボストンまでの道程会場はMIT@ボストンで、関空->サンフランシスコ->ボストンとサンフランシスコを経由。10/8が長かった。帰りはもっと長いらしいので、既に鬱。。。関空。学園前から行くと近い感じだった。サンフランシスコ空港。久しぶりだったけど、2時間でさらば。 MIT 結構広いMIT(当たり前か)。なんか工学な大学っぽい風景。 EM NLPと印刷されているUSB。NAISTと書いてしまっていたが、意外と通じた。松本先生効果が過ごすぎる。会場で提供される朝御飯。発表がある会場。3 sessionがパラレルであっていた。通路にあった黒板でも議論があっていた。ハーバード大学 kodai-tの希望で昼休みにハーバード大学に行ってみた

sassano 2010/10/11

EMNLP
2010

リンク

ベイズ理論 - yasuhisa's blog

同時確率、条件付き確率からベイジアンアップデートまで。パラメトリック、ノンパラメトリック(データサイズが増えるにつれて、パラメータ数が対数オーダーで増える)のところは初めてだとたぶんわけわからないところで、ちょっと前で説明してみたけど、若干でしゃばりすぎた気がする。どうするべきかちょっと迷うところではある。難しい。ベイジアンな考え方は、自分もちゃんと理解するまで3ヶ月はかかったので(パラメータの事前分布ってなんですか!!とか)、今日初めてという人はたぶんわけわからなかったかもなーと(宗教なので、最初は受け入れ難いものなんですよ、きっと)。コインの例のやつは、自分も最初よく分からなかったので、Rで事後分布がupdateされていく様子とかをRで書いたりしていました。ベイズの事後分布と事後予測分布を出してみた - Seeking for my unique color. FSNLPの例は分か

sassano 2010/05/25

リンク

#20 Large Language Models in Machine Translation - yasuhisa's blog

Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, Jeffrey Dean, EM NLP-2007 内容は結構シンプル。目的意識としては How might one build a language model that allows scaling to very large amounts of training data?(どーやってでかいデータで言語モデルを作るか) How much does translation performance improve as the size of the language model increases?(データサイズによって、翻訳の精度はどの程度改善されるものなのか?) Is there a point of diminishing returns in performance

sassano 2010/05/16

リンク

自然言語処理の応用勉強会キックオフミーティング - yasuhisa's blog

新しく今年できた勉強会(NLP.app)のキックオフミーティング。NLP.appは外部に公開して大丈夫と言われたのでなるべく書いていく方針で!!NLPのタスク的には述語項構造解析(predicate-argument structure analysis) 意味役割付与(semantic role labeling) を主に扱うらしく、情報検索や情報抽出の論文紹介などもおkという感じらしい。勉強会が終わった後、M1の同期の人とかは「そもそもSRLとかって何??」という感じ(自分も2週間前にDMLAで分からなかったし)のようで、大分不安がっていたが、分からないなら質問しまくればいいよ!!と言ってみた。みんなどんぐりの背比べみたいなもんだし、きっとみんな分かってないから(自分を含め)。この勉強会はそういう分野をターゲットにしつつ、特に大規模なWebデータを対象としたものに焦点が置かれている

sassano 2010/04/27

リンク

A simple introduction to maximum entropy models for natural language processing - yasuhisa's blog

DMLAにはローカルルールがあって、基本的に論文紹介でも外部のBlogのようなところに書いてはいけないというルールがあるのだが*1、金曜のyuta-hさんの最大エントロピー法周りの話は外部に公開しても構わないと書いてあったので書いてみる。 Ratnaparkhi A. "A simple introduction to maximum entropy models for natural language processing" Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997 http://www-rohan.sdsu.edu/~gawron/mt_plus/mt/course_core/lectures/max_ent_gentle.

sassano 2010/04/26

リンク

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (50)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス