タグ

NLPに関するsleepy_yoshiのブックマーク (158)

  • Tutorial

    チュートリアル等で作成した資料・解説です。 参考になった、コメント、感想、気になった点等あればご連絡頂けると幸いです。 機械学習入門 初心者向けの機械学習入門です。 LIBLINEARを用いた機械学習入門(単語分割) 第一回 機械学習を自然言語処理の分類問題に適用する入門ドキュメントです。 LIBLINEARという実装を用いて、自動単語分割モデルの学習を行います。 日語 英語(近日公開できます) 言語モデル演習 河原研でM1向けに行っている言語モデル演習の資料です。 言語モデルの概要 単語bi-gramモデル・エントロピー 言語モデルの基礎、文字n-gramモデル、単語n-gramモデル、未知語モデルについて扱います。 また、言語モデルの評価としてエントロピーとカバレージについて扱います。 PDF KAWAHARA Lab Top Page Back to Yoshino's p

  • IBM Model 1の実装 - nokunoの日記

    引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f

  • TwitterにいるNLPのすごい人リスト - nokunoの日記

    便乗です。TwitterにいるPHPのすごい人リスト - Shin x blogNLP(と機械学習)方面で個人的に尊敬している人を中心にまとめてみました。敬称略・アルファベット順です。 @a_bicky @caesar_wanya @combinational @echizen_tm @hillbig @hitoshi_ni @issei_sato @kashi_pong @kimuras @kisa12012 @klmquasi @llamerada @machy @mamoruk @mhagiwara @murawaki @neubig @niam @norizm @overlast @penguinana_ @s5yata @shima__shima @shuyo @sla @sleepy_yoshi @smly @syou6162 @takeda25 @taku910 @tkng

  • NLPに関する良質なブログリスト - nokunoの日記

    TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です.例によって順不同です.生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ!射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋舗unnonounouchiumi logBLOG::broomie.net蝉々亭Overlasting::Lifeやた@はてな日記aito の日記 睡眠不足?!gologo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人

  • ACLで1990年〜2009年に最も引用された論文リスト - nokunoの日記

    Grahamさんのブログより.Most cited papers of the ACL (1990-2009) | Graham's Research BlogACL(自然言語処理分野の国際会議)で発表された論文のうち,年次ごとに最も引用された論文がまとめられていました.これはありがたい.1990: Steedman, Mark “Structure and intonation in spoken language understanding” (344 citations)1991: Peter F. Brown; Jennifer C. Lai; Robert L. Mercer “Aligning sentences in parallel corpora” (477 citations)1992: William Gale; Kenneth Ward Church; David

  • IBM モデル1とその先 - 武蔵野日記

    朝、腰に違和感を感じる。やはりアメリカ出張が……。 午前中、NTT でミーティング。データを見つつ議論。いろいろデータを見ると悩ましいケースがありますな〜。なんとかなるか……? 昼、お2人の方々からそれぞれ独立に「あれ、小町さんだと気がつきませんでした。学生みたいですね」と言われる。7月1日から NAIST も節電で電灯を消して暗くなっているので、自分もクールビズにしようと思い立ち、普段は土日にするような格好をしているのだが、若く見えるほうが嬉しい年頃。20歳のころは複数の先生方から「小町は年齢を偽っている。きみは当は40歳くらいだろう」と言われたりしたものだが、いまは逆転したのだろうか (笑) 午後、機械翻訳勉強会。そろそろ終わりに近づいているが、 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge

    IBM モデル1とその先 - 武蔵野日記
  • 自然言語処理における双対分解に関するチュートリアル - 武蔵野日記

    結局飛行機の中で寝すぎてホテルに着いてから朝まで作業していて、翌日眠い。 朝の便でスーツケースが届くので、午前中にはホテルに届けます、という話だったので、ホテルで待機。10時になって、そろそろ店が開くので最悪買いに行くか、と思って荷物をまとめて出かけようとしたら、フロントからスーツケースが届いたとの電話。助かった。 朝ご飯もべず待っていたので、Pioneer Place というポートランド的なショッピングセンターまで歩いて行って、地下のフードコートでべる。ブティックみたいな店にはほとんど人がいなくて、日曜日だから11時開店らしく、休みだからかな? と思ったら、地下の Apple Store にはうじゃうじゃ人がいて(当に異常なくらい、日の通勤電車並み?)、iPhone 4 やら iPad やらをみなさん見ていて、びっくり。 オレゴンはアメリカの州で唯一消費税がない州で、品物が安く買

    自然言語処理における双対分解に関するチュートリアル - 武蔵野日記
  • ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記

    ACL HLT 2011 の3日目の最初は認知言語学に関するHow do the languages we speak shape the ways we think? という基調講演。時間、性(ドイツ語やフランス語で女性名詞や男性名詞がある)、因果関係に関していろんな言語でどのように表現され、それが人間の認識にどのように影響を与えているか、というトーク。おもしろい。 たとえば、時間軸の過去と現在を前後と言う(思う)か上下と言うかは言語によって違い、たとえば日語では「6月下旬」は6月の先の時間(未来)を指すが、英語では上下でなく前後で表現したり(たとえば "back in '90s" のように過去を指す)、アイマラ語は前後でも過去が前で未来が後ろだったりとか。 それで、言語が認識に影響を与えるかの調査の実験として、英語中国語のバイリンガルに対し、「月曜日と火曜日がどのように位置関係にな

    ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記
  • CoNLL-2011 初日: 人間の言語理解に自然言語処理が貢献できること - 生駒日記

    ACL の会議は終了したので会議後のワークショップの日。自分は Conference on Computational Natural Language Learning ( CoNLL-2011 ) という会議に参加。 当は他のワークショップもぶらぶらと出ておもしろそうなのがあったら聞いてみようかと思っていたのだが、どうも今回は会場がどこも狭いようで、登録した人のぶんしか座席がないようなので、大人しく最初から CoNLL に参加。 CoNLL は今回15回目で、それなりに伝統もある会議なのだが、今回は投稿数82件で採択数はそれぞれ口頭が13件、ポスターが14件、合わせると33%で、中堅どころの会議になっている。もう一つ元々は同じくらいの規模だった EMNLP (機械学習や統計を用いた自然言語処理の国際会議) という会議は今回600件以上の投稿数で、今年の採択率は24%だったらしいのだ

    CoNLL-2011 初日: 人間の言語理解に自然言語処理が貢献できること - 生駒日記
  • CoNLL-2011 最終日: ゲームと自然言語処理の意外な関係 - 武蔵野日記

    会議の全日程を通じて今日が最終日。いや〜、もうへとへと…… 午前中は CoNLL の共通タスクの報告会。今年は共参照(coreference)といって、たとえば 東日大震災からの復興策を検討する政府の復興構想会議(議長・五百旗頭真防衛大学校長)は25日、「復興への提言」を決定し、菅直人首相に答申した。津波で被害を受けた地域の復興に向けて土地の利用手続きを一化することや、一定区域に「特区」を設け、規制緩和や税制優遇を盛り込んだ。復興費を賄う財源として、臨時増税の検討を求めた。首相が退陣表明するなど政局は混迷しており、実現は曲折が予想される。 といった文章があったとき、「菅直人首相」と「(...)首相(が退陣表明...)」が同じ実体を指している、ということを解析するタスクであり、日語では NAIST テキストコーパスでも共参照の情報を付与している。 さて、今回の共通タスクは@jhirwi

    CoNLL-2011 最終日: ゲームと自然言語処理の意外な関係 - 武蔵野日記
  • 第6回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

    というわけで第6回TokyoNLPを開催しました。発表者の皆様、会場のajiyoshiさん(ECナビさん)、ありがとうございました!第6回 自然言語処理勉強会 #TokyoNLP : ATND CRFと素性テンプレート by @uchmikCrfと素性テンプレート View more presentations from uchumikMBAをuchmikさんに貸し出していたため簡単にメモ。 素性関数 Viterbiアルゴリズム Forward-Backwardアルゴリズム 素性テンプレート(CRF++形式) 実数素性テンプレートについて 言語モデルなどの情報を外部から組み込みたい パーザを使って演算を実装 関連するエントリ uchiumi log: 間違ってるかもしれないCRFの説明uchiumi log: 実数素性テンプレートの使える CRFuchiumi log: 実数素性テンプレー

  • TokyoNLP #6で発表しました〜言語アフリカ起源説〜 - Educational NLP blog

    6/25にTokyoNLP #6で発表しました。id:nokuno さんがまとめてくださっています。 Gengo Africa View more presentations from Yo Ehara 発表の中身は、世界の音素の多様性が言語がアフリカから広がる時の連続創始者効果を表しているという、Scienceの論文 を読むというものです。 僕自身、「この言語とこの言語には関連があるんじゃなかろうか」とか思ったときは、確かにまず音素を見るので、「音素を考える」という方針は悪くないと思っています。というわけで、音素について話しだしたら、音声学入門みたいな話に…(汗 全く自分の専門ではない話を、しかも言語処理の勉強会でするということで不安だったのですが、興味をもっていただけた方も多いようで、ほっとしています。 時間がオーバー気味だったので、最後の線形回帰とBICのところは端折ってしまいました

    TokyoNLP #6で発表しました〜言語アフリカ起源説〜 - Educational NLP blog
  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei

    ACL2011の論文で「Faster and Smaller N-Gram Language Models」というのが気になったので読んでみた。 ACL Anthology » P11 Faster and Smaller N-Gram Language Models Adam Pauls, Dan Klein; 2011 論文はこれまで提案されている言語モデルの圧縮・高速化の手法を実装して比較したよ、というもの。各種法が丁寧に解説されており、性能比較もよく知られているツールであるSRILMをベースラインとして行っているので参考になる。サーベイ論文として優れていると感じた。 論文で紹介されている手法はモデルのサイズ圧縮と高速化の2点に関するもの。 まずはサイズ圧縮について。これはTRIEを使うことで各Nグラムの共通したプレフィクスを圧縮するのが基らしい。でTRIEについてはノードの持

    ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei
  • LIBLINEARを用いた機械学習入門(単語分割)

    このページでは機械学習のツール(LIBLINEAR)を利用して、実際に分類問題を解くにはどういう手順を経るかということについて解説します。つまり、Kytea(京都テキスト解析ツールキット)における簡易版の単語分割モデルを作ってみようということです。 なお今回はプログラミング言語としてRubyを用いますが、Rubyの知識がなくても実装ができるように解説するよう心がけます。また、必要以上に細かく書いてあるかもしれませんが、不要な方は適宜読み飛ばして下さい。 細かい説明はすっとばしてやり方を見る 機械学習って? 朱鷺の杜Wiki 「機械学習」がわかりやすいかと思います。 ひとことで言うと、「訓練データを与えてそこから機械に問題の解き方を学んでもらい、別の問題を解いてもらうこと」です。 教師あり学習・教師なし学習 機械学習は大きく「教師あり」と「教師なし」に分かれます。 「教師あり学習」とは

  • はじめての生成文法・前編 - #TokyoNLP 5 - 木曜不足

    第5回 自然言語処理勉強会@東京 にのこのこ行ってきました。 いつもいつもありがとうございます>主催の @nokunoさん、会場の ECナビさん(@ajiyoshiさん)、発表者、参加者の皆さん 今回も、いつものように新境地で「生成文法」について発表させてもらった……という予定だったのだが、資料作りが間に合わず*1&分量がインフレを起こして、急遽前後編にわけさせてもらったら、生成文法が出てくる直前で「次回に続く」。ほんとすんません&次回もよろしく。 【追記】 後編はこちら。 「はじめての生成文法・後編」を TokyoNLP で発表してきました。 - Mi manca qualche giovedi`? 【/追記】 こちらが資料。眠くて変なテンションで、ずっとネイティブの関西弁でしゃべりとおしてたような気がする。まあ過ぎたことだし。 はじめての生成文法・前編 - #tokyonlp 5 Vi

    はじめての生成文法・前編 - #TokyoNLP 5 - 木曜不足
  • CRFのヘシアン

    坪井さんの論文がAAAIに通りました。おめでとうございます。AAAI記念ということで、宣伝その2。今回はCRFのヘシアンを具体的に計算してみます。 入力文x、ラベル系列y、重みベクトルwに対して、CRFの対数尤度関数は です。fは特徴ベクトルで、普通f(x, y)と書きますが省略します。Zは分配関数です。正則化項を無視すれば、学習データに対するこの値の総和、 が目的関数でした。この勾配はきれいな形をしていて、 という形でかけます。NLP屋さん的にはここでおしまいですが、実はもう1回微分した形、つまりヘシアンもきれいな形で求まります。では頑張って微分しましょうというのが今回の主旨。 まず、第1項のΣyfの項はwで微分すると消えます。考えないといけないのは第2項のE[f]の部分だけです。ベクトルの微分なのでちょっとめんどくさいです。もとの式に戻しましょう。 ではwで微分しましょう。まずは積の微

  • 粗末な(素性とモデルを用いた)単語分割に辞書情報を入れてみた - ny23の日記

    文節区切り - ny23の日記や粗末な(素性とモデルで)単語分割 - ny23の日記の実験で,これらのタスクでは文脈の情報がほとんど要らないということは(ラベルバイグラムを考慮した)CRF との精度差が無いという事実を通じて確認していたけど,日語の品詞タグ付けでもそうらしい. 日語: Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis (ACL-HLT: 2011, short) 英語(参考): Structure Compilation: Trading Structure for Features (ICML 2007; 前も引用した記憶が) この論文の単語区切りの素性は,去年の実験の素性に辞書情報を追加したものに近い*1ので,前のモデルの方にも辞書情報を入れて(mecab-juman

    粗末な(素性とモデルを用いた)単語分割に辞書情報を入れてみた - ny23の日記
  • 言語処理学会第17回年次大会で発表しました #nlp2011

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 地震の余波が収まらぬところ失礼します。要素技術開発部の奥野と申します。 2011年3月7日(月)~3月11日(金)に愛知県の豊橋技科大で行われた言語処理学会で、ヤフーから3件の発表を行いました。 言語処理学会第17回年次大会(NLP2011) この記事では、その際の発表スライドと論文について紹介します。 言語処理学会とは? 言語処理学会とは自然言語処理に関する国内最大の学会で、年4回の学会誌の発行と年1回の年次大会の開催を主な活動としています。毎年3月に行われている年次大会では、この分野の研究者・技術者が一同に会し、活発な議論が行われています。事前登録の情報によると、会議には約500名の方が参加されたそうです。年次大会は毎年関東

    言語処理学会第17回年次大会で発表しました #nlp2011
  • 言語処理学会第17回年次大会 (NLP2011) - 0069

    言語処理学会第17回年次大会 (NLP 2011) 言語処理学会第17回年次大会 (NLP2011) のメモです。 NLP 2011 は豊橋技術科学大学で開催。 NLP 2011 の日程 チュートリアル: 3月7日(月) 会議: 3月8日(火)~3月10日(木) ワークショップ: 3月11日(金) NLP 2011 の場所 豊橋技術科学大学 NLP 2011 公式サイト http://www.anlp.jp/nlp2011/ 現地実行委員会によるページ 第17回言語処理学会年次大会にようこそ - 豊橋技術科学大学 - ... 豊橋技術科学大学へのアクセスについて .. 言語処理学会のための特別な交通の手配について .. 言語処理学会のための宿泊の割引について ... チュートリアル nlp2011_tutorial on USTREAM: ■言語処理学会第17回年次大会 チュートリアル