タグ

NLPに関するsleepy_yoshiのブックマーク (158)

  • Sampling: Random Order? Corpus Order? | Graham's Research Blog

    Machine Translation, Speech Recognition, Machine Learning, and the like. Gibbs sampling is a common technique that is used in Bayesian learning that is used to find the true distribution of some distribution over probabilistic variables that we cannot calculate directly. I won’t cover the details here, but Wikipedia or Pattern Recognition and Machine Learning give good introductions. But the impor

  • CMLog :: Note about installing Coreference Resolution Tools: CherryPicker and ARKref

  • テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録

    WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー

    テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
  • Loading...

  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

  • CS 288: Statistical Natural Language Processing

    CS 288: Statistical Natural Language Processing, Spring 2010 Instructor: Dan Klein Lecture: Monday and Wednesday, 2:30pm-4:00pm, 405 Soda Hall Office Hours: Monday 4pm-5pm and Thursday 2:30pm-3:30pm in 724 (or 730) Sutardja Dai Hall. Announcements 1/19/10:  The course newsgroup is ucb.class.cs288. If you use it, I'll use it! 1/19/10:  The previous website has been archived. 1/19/10:  Assignment 1

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • 広島でお好み焼きを食べる1日 - 武蔵野日記

    ひかりレールスターにて新大阪から広島へ。今日は情報処理学会第199回自然言語処理研究会なのである。 ひかりレールスターは指定席が普通のグリーン車用の席と同じなので、腰には楽かと思ったのだが、人が多くて疲れる。新大阪から広島は1時間半だったのが救い。来週月曜日を休みにすると連休になるので人が多いのだろうか? 広島バスセンターでバスを待っている間にお好み焼きべてみる。五エ門 広島バスセンター・アクア店というところ。確かにこれはおいしいかも〜 広島市立大に来たのは初めてだが、キャンパスはきれいだし、山の中腹で風光明媚だし、これはいいところだなぁ。市内にもバスで15分というロケーションもよい。高校生のとき東広島(新幹線で1駅離れている)にある広島大学を受験しに来たが、あそこは NAIST よりも辺鄙な気がする。大学院ならともかく、学部生があの環境に閉じ込められるのはちょっと気の毒かも。 研究会

    広島でお好み焼きを食べる1日 - 武蔵野日記
  • WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010 - 木曜不足

    11月11〜12日に早稲田大学 理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。 サイボウズがフォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時代の40カ国語言語判定」と題し、以前開発したオープンソースの言語判定ライブラリについて発表させていただきました。 発表に用いましたプレゼンテーション資料はこちらです。*1 発表時は口頭で加えていた注釈のいくつかを追加してあります。 国際化時代の40カ国語言語判定 from Shuyo Nakatani なお、ご紹介した言語判定ライブラリ for Java はこちらです。 Google Code Archive - Long-term storage for Google Code Project Hosting. lan

    WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010 - 木曜不足
  • 極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長の二乗のオーダー 素性の候補となる「極大部分文字列」を suffix array/lcp/WDT から線形時間で求める 2回以上現れる任意の部分文字列を素性とするのと同等 一般に、極大部分文字列は全ての部分文字列よりはるかに少ない(trigram〜fivegram ぐらい) grafting/L1 正則化付きロジスティック回帰により、有効な素性(重みが非ゼロ)を効率的に学習 極大部分文字列 例) abracadabra "bra" は "abra" の部分文字列としてしか現れない → "bra"

    極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足

    この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4+5紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手近にあった方法論」に固執する可能性 by 持橋さん (IBIS 2010 のオープニングセッションにて) 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ 例)読めそうな、わかりそうな論文だけ読む 例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く 論文を手当たり次第に、広く浅く読んじゃおう 1あたり1〜2時間 目安は「twitter で2,3回つぶやけるくらい」(ぇ もちろんちゃんと読む論文はちゃんと読むんだけどね でも、まだ

    EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3 - 木曜不足
  • EMNLP・COLING読み会まとめ - あしたからがんばる ―椀屋本舗

    今朝最近恒例の論文紹介(今回はEMNLPとCOLING)の読み会をやった。 僕は昨日(今朝?)の2時くらいまで読む時間がとれず、ぎりぎりになってしまったが(こういう生活もよくないと思う。逆算してLinearにタスクを終われるようになりたい)2紹介した。…が結局あまりきちんと紹介する時間がなくて残念。2ともアイディアは面白かったので、まとめておく。 Inducing Word Senses to Improve Web Search Result Clustering Roberto Navigli; Giuseppe Crisafulli (EMNLP) Multi-Sentence Compression: Finding Shortest Paths in Word Graphs Katja Filippova (COLING) 両方ともグラフを使う話で、前者は語義の曖昧性を解消す

    EMNLP・COLING読み会まとめ - あしたからがんばる ―椀屋本舗
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 小規模データで単語の数を数えてみた (1) - ny23の日記

    大規模データで単語の数を数える - ny23の日記 で書いた Count-Min Sketch で,誤差を減らすヒューリスティクス (conservative update) New directions in traffic measurement and accounting (SIGCOMM Comput. Commun. Rev., 32(4), 2002) を実装して,動的ダブル配列を使って Wikipedia のテキスト処理を高速化 - ny23の日記 の小規模データ(1.5GiB の Wikipedia 文)の単語カウントでその効果を見てみた.考えるところはハッシュ関数に何を使うかぐらいで(キーを陽に保持しない限りは)実装はとても簡単. // GNU GPL version 2 copyright@ny23 #include <cstdio> #include <cstdl

    小規模データで単語の数を数えてみた (1) - ny23の日記
  • mots quotidiens.

    1週間ほど前に, 京大の Neubigさん から, FST上の教師なし単語分割ツール latticelm [LINK] の実装を公開した, との連絡をもらったので, 試してみました。 このツールは僕が前にやった教師なし形態素解析ができる他 (NTTではどうやっても 僕のコードは公開できないのですが), Neubigさん自身の研究 で, 音声認識結果の音素ラティスからの直接の言語モデル学習が可能なようです。 インストールには普通に OpenFST を configure; make してから, latticelm の ディレクトリでmakeを実行するだけ。以下は京大コーパスに対して実行してみた ものです。 sj205:~/work/neubig/latticelm% time ./latticelm -annealsteps 0 -unkn 5 -burnin 10 -samps 12 -p

  • 「言語処理のための機械学習入門」勉強会を開催しました - kisa12012の日記

    2010/8/6,7の2日間を用いて、「言語処理のための機械学習入門」を輪読する勉強会を開催しました。 発表者の皆様、お疲れ様でした。 以下、現時点で公開されている発表スライドを掲載します。 (発表資料に問題等あれば、TwitterのDMなどで御連絡ください。サイドバーのプロフィール欄に連絡先が記載されています。) 2章:文書および単語の数学的表現 100816 nlpml sec2View more presentations from shirakia. 4章:分類 Ml for nlp_chapter_4View more presentations from hylosy.Ml4nlp 4 2View more presentations from beam2d. 5章:系列ラベリング NLPforml5View more presentations from kisa12012.

    「言語処理のための機械学習入門」勉強会を開催しました - kisa12012の日記
  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

  • 大規模データで単語の数を数える - ny23の日記

    大規模データから one-pass で item(n-gram など)の頻度を数える手法に関するメモ.ここ数年,毎年のように超大規模な n-gram の統計情報を空間/時間効率良く利用するための手法が提案されている.最近だと, Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EMNLP 2010) とか.この論文では,最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など,細かい技術を丁寧に組み上げており,これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象(ちょうど論文を読む直前に,この論文の7節の

    大規模データで単語の数を数える - ny23の日記
  • 自然言語処理勉強会@東京に参加しました

    @nokunoさん主催の自然言語処理勉強会@東京で「統計的係り受け解析入門」というタイトルで話をしてきました.資料はこちらにおいておきます.CKYアルゴリズムに関して質問が多かったので,説明を加筆しました. 内容は「入門」と銘打っておきながら,3rd order Eisnerまで紹介するアレな内容.どういう方が出席されるかわからなかったので,ちょっと最新の話題も入れてみたかったのでした.もともと社内セミナーで使った資料を半分流用しています. Eisner法の理解の肝は,三角と台形がCFGにおける非終端記号に相当している,三角が三角と台形に分割されるというルールが,CFGにおける書き換え規則に相当している,という点が理解できれば後はCFGの知識で理解できます.この記法に慣れてくると,例えば3rd orderの論文はほとんど図を見るだけで理解できます :) 割愛しましたが,当はこのあとスコア

  • Loading...