タグ

ブックマーク / www.yasuhisay.info (50)

  • タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

    ポエムを適当に書きます。2立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ 文書分類でneologdとmecabを比較した まとめ Sentencepieceの紹介記事を読んだ ニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。 自分用の要約すると ニューラル言語処理では語彙数が大きくなると扱いにくい 単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる 尤度を最大にするエントロピー圧縮の一部と見なせる スペースもメタ文字に置き換えて生文をわせることにより、detokenizeが言語によらず簡単になる 翻訳等のタスクで助かる! こういうのが必要なくなる 単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている 従来の

    タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog
    sassano
    sassano 2017/04/12
  • はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

    先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。 今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

    はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog
    sassano
    sassano 2016/06/27
  • NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog

    エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。 これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて 世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる 研究をする上で必要なリソース(計算機、データなど)が十分にある 足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる 自然言語処理の研究をする上でかなり重要 などなど、とても研究しやすい環境です。AAAIEMNLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた

    NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog
    sassano
    sassano 2016/04/04
  • 「マイクロソフトでは出会えなかった天職」を読んだ - yasuhisa's blog

    一気に読んでしまった。ぶるぶるきた。これは間違いなく良書。 マイクロソフトでは出会えなかった天職 僕はこうして社会起業家になった 作者: ジョンウッド,矢羽野薫出版社/メーカー: 武田ランダムハウスジャパン発売日: 2007/09/21メディア: 単行購入: 39人 クリック: 489回この商品を含むブログ (125件) を見るMicrosoftの幹部社員だった著者がMicrosoftを辞めてNGO(Room to Read)を立ち上げたことに関することが書かれているのだが、色々な方面でのエッセンスが詰まっていた。Microsoftでインターンやっていながら読むのはどうよと一瞬思ってしまったが、なるほどこれはMicrosoftで幹部をやっていた彼だからこそできる仕事なんだなと思ったのでMicrosoftにインターン行っている人(もちろんそれ以外の人にもw)にもお勧めできる。 気にいった言

    「マイクロソフトでは出会えなかった天職」を読んだ - yasuhisa's blog
  • EMNLPで気になる論文 - yasuhisa's blog

    メモメモ。談話成分多め。上に行くほど読みたい度合いが強い。 Structured Relation Discovery using Generative Models (pdf) “X was born in Y” and “X is from Y”"というのが同じような関係から生成されると考えてトピックモデルで定式化 Unsupervised Structure Prediction with Non-Parallel Multilingual Guidance (pdf) 教師なし学習を多言語混ぜてやる系の話。Methodの付近だけでもチェックしておく Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities (pdf) Approximate Sc

    EMNLPで気になる論文 - yasuhisa's blog
  • 最近読んだ本 - yasuhisa's blog

    の内容というより個人的な感想なので参考にはならないと思われ。というか内容についてほとんど言及していな(ry。自分の読んだメモです。 イシューからはじめよ―知的生産の「シンプルな質」 作者: 安宅和人出版社/メーカー: 英治出版発売日: 2010/11/24メディア: 単行(ソフトカバー)購入: 48人 クリック: 660回この商品を含むブログ (142件) を見る良コンサル系な傷気味だが、このは研究にも通じるところがあるなーとか思いながら読んでいると著者は普通に研究もされていた方だった。 夢をかなえるゾウ 作者: 水野敬也出版社/メーカー: 飛鳥新社発売日: 2007/08/11メディア: 単行購入: 80人 クリック: 1,301回この商品を含むブログ (625件) を見る読みやすかったので一気に読んだ。ズキズキくる...。 自然言語処理の基礎 作者: 奥村学出版社

    最近読んだ本 - yasuhisa's blog
    sassano
    sassano 2011/05/30
  • 関数解析メモ - yasuhisa's blog

    カーネル法入門を読むために関数解析について勉強したりしているのであります。ヒルベルト!! カーネル法入門―正定値カーネルによるデータ解析 (シリーズ 多変量データの統計科学) 作者: 福水健次出版社/メーカー: 朝倉書店発売日: 2010/11/01メディア: 単行 クリック: 19回この商品を含むブログ (10件) を見る工学のための関数解析 (工学のための数学) 作者: 山田功出版社/メーカー: 数理工学社発売日: 2009/05メディア: 単行購入: 1人 クリック: 7回この商品を含むブログ (2件) を見るいつもながら関数解析初心者なので間違いまくりだと思いますが、どっかにメモっておかないとすぐ忘れるのでメモ。id:mrcarrot君にはあれこれと教えてもらいながら勉強しています、ありがとうございます。 なんで関数解析(ヒルベルト空間論)?大学1年とかでやる線形代数はR^Nな

    関数解析メモ - yasuhisa's blog
    sassano
    sassano 2011/05/18
  • とあるlabのカーネル輪講 - yasuhisa's blog

    とあるlab*1のカーネル輪講に参加させてもらうことになったので、ちょこちょこ勉強する予定。 カーネル法入門―正定値カーネルによるデータ解析 (シリーズ 多変量データの統計科学) 作者: 福水健次出版社/メーカー: 朝倉書店発売日: 2010/11/01メディア: 単行 クリック: 19回この商品を含むブログ (10件) を見るカーネル法についてはPRMLより前に赤穂さんので勉強して大変分かりやすかった(SVMとかリプレゼンター定理とかGaussian Process(そのときのメモ)とかこので勉強させてもらったなぁという記憶がある)のだが、後半の理論の付近で脱落してしまった記憶があるのでこの輪講でこの辺も理解していきたいなぁ。最近うちのlabでカーネルカーネルした話はあんまり聞かないし、分野的にカーネルPCAとかカーネルCCAとかあまり使う機会がない(CCAのほうは自分がやってない

    とあるlabのカーネル輪講 - yasuhisa's blog
    sassano
    sassano 2011/04/18
  • AAAI2011に採択されました - yasuhisa's blog

    ということで8月はサンフランシスコです!やっほい!もうなんというか共著者の人に感謝です。 AAAI-11: Twenty-Fifth Conference on Artificial Intelligence 基的には年次大会のときの話(原稿、スライド)を英語にした感じです*1。そういうわけで(?)自分はAI and the Webというspecial trackで出しました。 AAAI-11: Artificial Intelligence and the Web Special Track 国際会議に出るの自体は去年にEMNLPに出ているので初めてではないです(1日目、2日目の写真、1日目、2日目の内容、3日目の内容)。が、去年はNAISTの特待生制度のおこぼれのような感じで、発表なし聴講のみで参加というあれな状態でした...。EMNLPが終わってMITを離れるとき「今度はspeak

    AAAI2011に採択されました - yasuhisa's blog
  • 一難去ってまた一難 - yasuhisa's blog

    しばらく日記を書いていなかったようだ。AAAIの原稿の締切でした*1。なんとかsubmitできました、関係者の皆様ありがとうございました。Abstractが一文字も残らず真っ赤に添削してもらったり(噂に聞いたことはあったけど、当になってるとびっくりした)、年次大会で固まったかに見えた構成も結構変わったりなどしまして、(自分で言うのもなんだけど)初稿と比べると比較にならないくらい分かりやすい論文になったんじゃないかなと思います(だから通ってくれ...!!!)。 さて、今後。就活。 希望しているところの説明会も一通り終わった感じで、そろそろESを書いて実際に面接が始まろうかという時期。ES真面目に書くと結構時間を取られる*2&気力を使うのであなどれない*3。研究進めながらってのもそれに拍車をかけているんだけど、ここは頑張りどころである。。。 研究。 3/23締切のEMNLP向けのネタを準備し

    一難去ってまた一難 - yasuhisa's blog
    sassano
    sassano 2011/02/09
  • ちいさくなーれ☆ - yasuhisa's blog

    ほとんと丸一日格闘していたら精神が崩壊した。今度から6ページ以上書けるところにのみ投稿しようと思う(冗談...のはず)。 table、algorithm、referenceはfootnotesize にするけど、思ったよりは縮まない。。。 \bibliographystyle{jplain} {\footnotesize \bibliography{ref} } \begin{center}より\centering としたほうが空白が少なくて済む。\begin{center}は文中で使われることが主な目的だからそうなったんだそうな。 図とキャプションの余白 - M.O.S.な日々 数式関係を小さくしたい 英語の文字サイズとかは \usepackage{times} とすると結構縮むらしいが \usepackage{mathptmx} とすると数式関係も小さくなってくれた。 余白の設定 g

    ちいさくなーれ☆ - yasuhisa's blog
    sassano
    sassano 2011/01/20
  • とあるモデルのMCMC - yasuhisa's blog

    飽きもせずにGibbs Samplingとかばっかりやってますが、久しぶりにはまった。離散確率分布とかからサンプリングするのにrandとかを使ってたんだけど、これがとてもとてもとてもいけなかった。CとかC++のrandは線形合同法で実装されているとかで周期性が問題になる場合があるが、これがとてもとてもとても問題になった。対数尤度を見てるとそれなりに収束したのかなと思ってとあるF値を観察していたんだけど、こんな感じの推移を示した。 ちなみに、これは10個の平均をplotしたものである。平均してこれである。死んでしまえ。 200くらいで周期があるように見うけられたので、(半日くらい経って)boostのメルセンヌツイスターに切り変えてみた。これである。 MCMCするときにrandは使っちゃだめだよっていうのは常識なんですよね、きっと。ようやく身を持って勉強いたしましたまる。

    sassano
    sassano 2010/12/18
  • #70 A Mixture Model with Sharing for Lexical Semantics - yasuhisa's blog

    Joseph Reisinger and Raymond Mooney. 2010, In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP '10). Association for Computational Linguistics, Morristown, NJ, USA, 1173-1182. 意味談話勉強会にて自分が紹介。語の類似度をはかるというのはNLPでは重要なこと(でかつ難しいこと)である。高次元空間において単語がどこにいるかだけを一点で決めてしまうと、bankのような多義語(この論文でいうところのhomonymousな単語)の位置を正確に記述できていないことが分かる。既存の研究("Clustering my Committee"、"mu

    #70 A Mixture Model with Sharing for Lexical Semantics - yasuhisa's blog
  • 依存構文解析(MST parserとLIP) - yasuhisa's blog

    前回の続きと今回の資料。係り受けの問題をちょっと違う見方で見てみる。 Graph-based Method Integer Linear Programming Method Span-based Method こっちは次回らしい(Eisnerアルゴリズム => この前岩立さんのチュートリアルがあった) Graph-based Method最大全域木(MST)をbaseにしたもの。MST parserとも呼ばれる。今までのparsingと全然違う考え方(EMNLP 2005)。 spanning treeだとprojectiveに限定されない(交差を許す) よしあしがある 交差を許すと、交差が逆に悪さをする場合もあるので transition baseのものだと途中で間違うとボロボロになる MST baseのものだと全体最適化なのでそういうのに強い edgeのコストの決め方は? depen

    依存構文解析(MST parserとLIP) - yasuhisa's blog
    sassano
    sassano 2010/10/29
  • Eisnerアルゴリズムのチュートリアル - yasuhisa's blog

    III期初のD-Lec。岩立さんによるEisnerアルゴリズムのチュートリアル。今日の午前に松先生の依存構造解析とかの授業があった後なので、すごくよいタイミング。Eisnerアルゴリズムは依存構造解析を行なうためのアルゴリズムの1つで 言語に依存しない Projectiveな係り受けを仮定 Graph-basedなアルゴリズムでDPを用いて効率よく全探索するので、Shift-Reduceなどと比べると解析精度重視 なものである。EisnerアルゴリズムにはFirst-order、Second-orderなど色々あるが、N-th orderだと同時にN個の係り受け関係を見て、それ以外の係り受け関係は独立である、という風な考え方。個々の係り受け関係にスコアを付けて、その総和が最大になるように係り受けの組み合わせを見ていく。係り受けの組み合わせを全部見るが、CKYアルゴリズムのようなDPを採用

    Eisnerアルゴリズムのチュートリアル - yasuhisa's blog
    sassano
    sassano 2010/10/23
  • EMNLP 2010一日目、二日目の写真 - yasuhisa's blog

    デジカメが行方不明だったためiPhone 3Gのしょぼいカメラでお送りします(kodai-tがデジカメ持ってたので、その写真もらったら追加するかも)。 ボストンまでの道程 会場はMIT@ボストンで、関空->サンフランシスコ->ボストンとサンフランシスコを経由。10/8が長かった。帰りはもっと長いらしいので、既に。。。 関空。学園前から行くと近い感じだった。 サンフランシスコ空港。久しぶりだったけど、2時間でさらば。 MIT 結構広いMIT(当たり前か)。 なんか工学な大学っぽい風景。 EMNLPと印刷されているUSB。NAISTと書いてしまっていたが、意外と通じた。松先生効果が過ごすぎる。 会場で提供される朝御飯。 発表がある会場。3 sessionがパラレルであっていた。 通路にあった黒板でも議論があっていた。 ハーバード大学 kodai-tの希望で昼休みにハーバード大学に行ってみた

    EMNLP 2010一日目、二日目の写真 - yasuhisa's blog
  • ベイズ理論 - yasuhisa's blog

    同時確率、条件付き確率からベイジアンアップデートまで。パラメトリック、ノンパラメトリック(データサイズが増えるにつれて、パラメータ数が対数オーダーで増える)のところは初めてだとたぶんわけわからないところで、ちょっと前で説明してみたけど、若干でしゃばりすぎた気がする。どうするべきかちょっと迷うところではある。難しい。 ベイジアンな考え方は、自分もちゃんと理解するまで3ヶ月はかかったので(パラメータの事前分布ってなんですか!!とか)、今日初めてという人はたぶんわけわからなかったかもなーと(宗教なので、最初は受け入れ難いものなんですよ、きっと)。コインの例のやつは、自分も最初よく分からなかったので、Rで事後分布がupdateされていく様子とかをRで書いたりしていました。 ベイズの事後分布と事後予測分布を出してみた - Seeking for my unique color. FSNLPの例は分か

    ベイズ理論 - yasuhisa's blog
    sassano
    sassano 2010/05/25
  • #20 Large Language Models in Machine Translation - yasuhisa's blog

    Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, Jeffrey Dean, EMNLP-2007 内容は結構シンプル。目的意識としては How might one build a language model that allows scaling to very large amounts of training data?(どーやってでかいデータで言語モデルを作るか) How much does translation performance improve as the size of the language model increases?(データサイズによって、翻訳の精度はどの程度改善されるものなのか?) Is there a point of diminishing returns in performance

  • 自然言語処理の応用勉強会キックオフミーティング - yasuhisa's blog

    新しく今年できた勉強会(NLP.app)のキックオフミーティング。NLP.appは外部に公開して大丈夫と言われたのでなるべく書いていく方針で!!NLPのタスク的には 述語項構造解析(predicate-argument structure analysis) 意味役割付与(semantic role labeling) を主に扱うらしく、情報検索や情報抽出の論文紹介などもおkという感じらしい。勉強会が終わった後、M1の同期の人とかは「そもそもSRLとかって何??」という感じ(自分も2週間前にDMLAで分からなかったし)のようで、大分不安がっていたが、分からないなら質問しまくればいいよ!!と言ってみた。みんなどんぐりの背比べみたいなもんだし、きっとみんな分かってないから(自分を含め)。 この勉強会はそういう分野をターゲットにしつつ、特に大規模なWebデータを対象としたものに焦点が置かれている

    自然言語処理の応用勉強会キックオフミーティング - yasuhisa's blog
    sassano
    sassano 2010/04/27
  • A simple introduction to maximum entropy models for natural language processing - yasuhisa's blog

    DMLAにはローカルルールがあって、基的に論文紹介でも外部のBlogのようなところに書いてはいけないというルールがあるのだが*1、金曜のyuta-hさんの最大エントロピー法周りの話は外部に公開しても構わないと書いてあったので書いてみる。 Ratnaparkhi A. "A simple introduction to maximum entropy models for natural language processing" Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997 http://www-rohan.sdsu.edu/~gawron/mt_plus/mt/course_core/lectures/max_ent_gentle.

    A simple introduction to maximum entropy models for natural language processing - yasuhisa's blog
    sassano
    sassano 2010/04/26