タグ

NLPとnlpに関するsleepy_yoshiのブックマーク (158)

  • 統計的言語モデルとN-best探索を用いた日本語形態素解析法 - nokunoの日記

    今更ながら,NTT永田さんによる形態素解析のためのA*アルゴリズムを使ったN-best論文を読みました.というか,前にも読んで分かった気になっていたのだけど,忘れていたのでメモっておきます.統計的言語モデルとN-best探索を用いた日形態素解析法 そもそもA*アルゴリズムは最適解探索アルゴリズムであり,なぜこれでN-best探索ができるのか疑問でした.A* - Wikipedia論文の5ページ目には「最適解が得られたら,そのノードを取り除き,さらに探索を続けることにより次の最適解が得られる.」と書かれています.しかし,実際に擬似コード(図3)を読むとノードを削除するのではなくclosedリストに移しているだけで,しかもclosedリストに移されたノードは条件によってopenリストに戻される場合がある,というあたりがわかりづらかったです.これはラティス上では最適パスとそれ以下のパスがノー

  • 日本語入力におけるN文節最長一致とはなんなのか - nokunoの日記

    Googleの工藤さんとPFIの徳永さんがN文節最長一致法について議論している記事を見つけました.日本語入力におけるN文節最長一致とはなんなのか興味深かったので引用しておきます.Taku Kudo徳永さんののレビューをやりつつ、N文節最長一致について少しコメントを書きました。N文節最長一致についてはさんざんな言われようで、うまくいく原理はよくわからないとか、たまたまうまくいっているみたいな認識を持っている方が多いと思います。Mozcの開発を通じ、その心がわかったし、よくできてるんだなと感心しました。N文節最長一致は、ユーザの入力単位が文節であるという仮定を強く意識した手法です。換言すると、ユーザは自分の入力が常に1文節になることを期待しながら入力しているという仮定です。実はこれはあながち間違っていなくて、多くのユーザは無意識のうちに文節単位で入力しています。この仮定が常に正しのであれば、

  • 入力メソッドワークショップで発表しました〜「Social IMEの共有辞書をクリーニングしてみた」 - nokunoの日記

    入力メソッドワークショップ(別名IM飲み会)で「Social IMEの共有辞書をクリーニングしてみた」というタイトルで発表しました. WorkshopOnInputMethods2011 - chaime - ChaIME -- Term-based Yet Another Japanese Input Method Editor - Google Project Hosting 入力メソッド飲み会 2011 - [PARTAKE] Social IMEの共有辞書をクリーニングしてみた @nokuno発表資料をslideshareにアップロードしました.Social IMEの共有辞書をクリーニングしてみた View more presentations from Yoh Okuno 以下,他の人の発表についてのメモです. 機械学習による近代文語論説文への濁点の自動付与 岡さん 歴史的コーパ

  • EMNLP 2011 読み会を開催しました #emnlpreading - nokunoの日記

    EMNLP 2011 読み会を開催しました.会場はサイボウズさんです.いつもありがとうございます!ACL Anthology » D11EMNLP 2011 Exact Decoding of Phrase-based Translation Models through Lagrangian Relaxation by @nokuno統計的機械翻訳のデコーディングを速い!正確!な方法で解きましたという論文.手法としてはラグランジュ緩和を利用している.Exact Decoding of Phrase-based Translation Models through Lagrangian Relaxation #emnlpreading View more presentations from Yoh Okuno Introducing Tuning as Ranking by @ippei

  • #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足

    TokyoNLP 第8回に のこのこ参加。主催者の id:nokuno さん、発表者&参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん& @ajiyoshi さん、お疲れ様でした&ありがとうございました。 今回は「∞-gram を使った短文言語判定」というネタを発表。「短文言語判定」って、要は「このツイートは何語?」ってこと。 こちらが資料。 ∞-gram を使った短文言語判定 View more presentations from Shuyo Nakatani そして実装したプロトタイプ ldig (Language Detection with Infinity-Gram) とモデル(小)はこちらで公開。 https://github.com/shuyo/ldig 言語判定とは「文章が何語で書かれているか」を当てるタスクで、以前一度

    #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足
  • DSIRNLPで発表させていただきました - Negative/Positive Thinking

    12/10にmixiさんで行われたDSIRNLP勉強会で発表させていただきました 聴きにきていただいた方ありがとうございました スライド資料 http://www.slideshare.net/phyllo/ngram-10539181 自然言語処理はじめました - Ngramを数え上げまくる View more presentations from phyllo 発表で以下のコメントをいただきました 「有効なダイエット法を見つけるツールの進捗は?」 現在鋭意製作中です。すいません。 「Suffix ArrayはメモリじゃなくてHDDで作成することができますよ」 試してみます!

    DSIRNLPで発表させていただきました - Negative/Positive Thinking
  • Negative/Positive Thinking

    はじめに 焼きなまし法について、問題へ適用する際のメモ。 焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ 現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント 以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y

    Negative/Positive Thinking
  • Just Right! Pro | Just Right!7 Pro - 文章校正支援ツール | 商品・サービス | ジャストシステム

    Just Right!は、高度な日語処理技術を駆使し、誤字・脱字、表記ゆれなどを スピーディーにチェック。 人の目に代わって、細かなチェックを行うため、 校正作業の負担を軽減します。 例えば、表記ゆれや用語基準などのチェックは、Just Right!に任せ、文意や事実の確認は、 校正者が行うようにすれば、文書の品質を確保した上で、大幅な校正時間の短縮が実現できます。

    Just Right! Pro | Just Right!7 Pro - 文章校正支援ツール | 商品・サービス | ジャストシステム
  • SRILM - 長岡技科大 自然言語処理研究室

    Download SRILM 名前や所属などを記入しなくてはならないが、無料でダウンロードできます。 Install makeの前に変更しなくてはいけないところがあります Makefile SRILMをおいた場所をかく SRILM := /home/makino/usr/local/src/srilm $SRILM/common/Makefile.machine.i686(マシンによってMakefileが違います) g++ , gcc の場所(おそらく/usr/bin/gcc。一応which gccで確認をしてください)、オプションを以下に変更。 GCC_FLAGS = -O2 -Wreturn-type -Wimplicit CC = /usr/bin/gcc $(GCC_FLAGS) CXX = /usr/bin/g++ $(GCC_FLAGS) -DINSTANTIATE_TEMPL

  • Python で構文木を端末に描画してみる - ny23の日記

    巷にある構文解析器には,解析結果を木構造で端末に表示する機能がある.あった方が良いだろうなと思いつつ,自分で実装するのはいかにも面倒そうだと感じて,今まで後回しにしていた.いい加減そろそろ無いと困ると感じるようになってきたので,先日の通勤電車の中で暇つぶしに書いたら,思いの外あっけなく実装できたので,メモ代わりに残しておく.最初 Ruby でワンライナーで書けないかなと思ったが,流石に難しかったので,練習も兼ねて Python で実装してみた. #!/usr/bin/env python # -*- coding: utf-8 -*- # Usage: lattice_to_tree.py < in.KNP # translate parser output into human-readable dependency tree structure import sys # customi

    Python で構文木を端末に描画してみる - ny23の日記
  • N-gram 言語モデルを圧縮するには - やた@はてな日記

    はじめに 今回の記事は,以下の論文に関するものです.他にも紹介記事(ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei)があるので,そちらでは特に触れられていない部分を(独断と偏見により)解説しています. http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf Adam Pauls and Dan Klein. Faster and Smaller N-Gram Language Models. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pp. 258--267, 2011. 概要 こ

    N-gram 言語モデルを圧縮するには - やた@はてな日記
  • テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!

    一夜目はパターン認識と機械学習の概要を学びました。今夜は、識別部で用いられる機械学習の基的な線形識別器である「パーセプトロン」を具体的に学びたいと思います。「線形識別器?パーセプトロン?何それ?」字面は厳しいですが、手を動かしてみると意外と簡単に理解できます。今夜からは数式をバリバリ使っていきますし、手を動かしていただきます。「必ず」手元にペンと紙を用意してください。そうは言ってもパーセプトロンが一体何なのか、機械学習の中でどのような位置づけなのかがわからないと混乱するかもしれません。パーセプトロンの説明へ入る前に、機械学習の3つのアプローチをご紹介します。 ●機械学習の3つのアプローチ - 識別関数、識別モデル、生成モデル 機械学習は大きく分けて識別関数、識別モデル、生成モデルという3つのアプローチがあります。 識別関数 := 入力データを見て、特定のクラスに属するよう識別(代表的な手

    テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!
  • 第7回自然言語処理勉強会で発表してきました - 蝉々亭

    第7回自然言語処理勉強会で文書要約に関するお話をさせていただきました。その際に用いましたスライドを公開します。今回は入門編(初級編)なので、そのうち中級編をやるかもしれません。 Introduction to Automatic Summarization View more presentations from Hitoshi NISHIKAWA 毎回、スライドのレイアウトがおかしくなっていましたが、今回はpdfに変換してアップロードしました。こうすれば良かったのですね。今回はレイアウトが乱れていないはずです。過去のスライドもpdf化してアップロードしなおすつもりです。 次はグーグルによるザガットサーベイ買収の話か、NLP若手の会第6回シンポジウムの話を書きます。

    第7回自然言語処理勉強会で発表してきました - 蝉々亭
  • NLP若手の会で発表しました

    会社のブログにも書いたのですが、9/21, 22にNAISTで開催されたNLP若手の会シンポジウムで発表してきました。私は幸運にも最優秀奨励賞をいただきました。投票してくださった皆様どうもありがとうございます。発表資料はこちら。 さて、ちょっと裏話でも書きます。もともと発表する気(も時間も)はなかったのですが、プログラム委員ということでどちらにしろ奈良に行くのと(これは後に案外みんな来てないことがわかった)、最近開発&案件続きでちょっと研究もやりたいねということで、急遽発表ネタを捻出することになりました。特に検索クオリティを上げるような面白いネタはないだろうか。以前から確率的単語分割で検索品質を上げるという話があったのですが、これを確率的構文解析に適用したら・・・。単語境界情報のみだと、スキップのある部分文字列検索に自然な適応ができません。係り受け関係というのは、ある意味こうしたスキップの

  • Marti Hearst: What Is Text Mining?

    Marti Hearst SIMS,UC Berkeley hearst@sims.berkeley.edu October 17, 2003 I wrote this essay for people who are curious about the topic of text mining after having read the New York Times article by Lisa Guernsey (10/16/2003) or heard my Future Tense interview with Jon Gordon (10/20/2003). What is text mining? What are its potential applications and limitations? Text Mining is the discovery by compu

  • 蝉々亭

    ウェブサイトの移転などと書くといささか昭和の趣きがありますが,移転しました.同じタイトルで Blogger でやっていきます: 蝉々亭 はてなダイアリーの操作はちょっと直観的でないところがあって,いろいろいい機会なので移転しました.過去の記事はそのまま残しておきます. 今書かないと永遠に書かないような気がしますので書いておこうと思います。単なる雑駁な感想です。言語処理学会に行ってきました。今年も例年通りお祭り騒ぎと申しますか、会期中、普段お会いできない方々と、旧交を暖めると称して酒を酌み交わす日々となりました。私自身は会議でのポスター発表とワークショップでのオーラル発表があり、これらをこなしつつ、夜は酒席に馳せ参じるという塩梅で、なかなかハードでした。 昨年の北海道では3回の発表(会議での一般発表、論文賞受賞に伴う発表、ワークショップでの発表)と3回の座長(チュートリアルの司会、一般セ

    蝉々亭
  • 「文字列カーネルSVMによる辞書なしツイート分類」を発表してきました - あらびき日記

    この記事は abicky.net の 「文字列カーネルSVMによる辞書なしツイート分類」を発表してきました に移行しました

    「文字列カーネルSVMによる辞書なしツイート分類」を発表してきました - あらびき日記
  • Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足

    9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。 【追記】 ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ!) についての説明を追加しました。 【/追記】 Interactive Topic Modeling(ITM) とは 通常の LDA は教師無しであり、結果の制御は基的にできない baseball と football が同じトピックに入って欲しいと思っても、うまく分類されない場合はパラメータを変えて試行錯誤するとか、分類後にトピックをクラスタリングするか ITM は LDA に「単語AとBは同じトピックに入って欲しい」という制約を「後から」入れられるモデル Notatio

    Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011) - 木曜不足
  • ACL2011読み会で発表してきました

    今日は、サイボウズ・ラボさんにおじゃまして、ACL2011読み会で発表しました 今日読んだ論文はこれです。 Exploiting Web-Derived Selectional Preference to Improve Statistical Dependency Parsing. Guangyou Zhou, Jun Zhao, Kang Liu, Li Cai. ACL2011. [pdf] 発表スライドはこちらです。 内容はすごい簡単です。一言で言えば、単語の出現確率のPMIをgraph baseの係り受け解析の特徴量にいれたら精度が上がりました。これだけ。でも、これだけ主張が短くてはっきりしていて、アイデアも適用方法も明確なのは良いと思いました。一方で、いかにも誰かやってそうな方法で、既存研究ないのかという方が気になる論文です。 さて、もうちょっとちゃんと説明しましょう。係り受け

  • ACL2011読み会を開催しました #aclreading - nokunoの日記

    ACL2011読み会を開催しました.ご参加頂いた皆様,会場をお貸しいただいた@shuyoさんとサイボウズ・ラボさんに感謝!ACL HLT 2011ACL Anthology » P11 Unsupervised Word Alignment with Arbitrary Features by @nokunohttp://www.cs.cmu.edu/~jhclark/pubs/alignment.pdfUnsupervised Word Alignment with Arbitrary Features #aclreading View more presentations from nokuno Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections by @niamさんhttp://stat