タグ

NLPに関するsleepy_yoshiのブックマーク (158)

  • ブログの著者の性別の推定 - ny23の日記

    つい数日前終わった学会で出ていたので電車の中で一通り読んでみた. Improving Gender Classification of Blog Authors (EMNLP 2010) 一文でまとめると,今まで色々な論文で別々に報告されていた素性を全て使った上,1) (従来使われていた trigram 以上の長さも考慮した)可変長品詞列の素性を 2) 新しい素性選択手法で丁寧に追加して分類器を作ったら,既存手法より10%弱精度が上がりました (79.63%->88.56%),という論文. 1 は古典的な頻出パターン抽出(Apriori)と同様で,2 は既存手法のアンサンブル.実際に素性として追加された品詞列の例とか最初の方で見せてくれたらテンション上がるのだけど,最後まで無かった.手法自体はややアドホックな感じなので,結果押しで通ったのではないかな.実験はしっかりされているし.手法の効果

    ブログの著者の性別の推定 - ny23の日記
  • 2010-10-26

    2010-10-26 EMNLP読み会2010 自然言語処理 EMNLP 研究室 告知していたように、研究室でEMNLP読み会を開催しました。おかげ様で読み手の人数が増えたので、二回に分けてやることになりそうです(第二回目は11月に)。ai-aさんとkodai-t、joseph-iが読み手で参加してくれました、ありがとうございます(自分も一個担当)… 2010-10-26 #67 Joint Training and Decoding Using Virtual Nodes for Cascaded Segmentation and Tagging Tasks 論文100ノック EMNLP CRF 機械学習 Xian Qian, Qi Zhang, Yaqian Zhou, Xuanjing Huang, Lide Wu, in Proc. of EMNLP 2010, Massachu

    2010-10-26
  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

  • 最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

    読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。 再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。 半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al

    最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足
  • NTCIR-8 Patent Mining Task

    ちょっと報告が遅れましたが,会議には参加してませんが,NTCIR-8のPatent Mining Taskに,チーム西山の隊員として参加しました.タスクの内容は,特許文書中からその特許が解決したい課題や効果がかかれたフレーズを抜き出すというものです.結果的に参加チーム中で結構いい順位につけたということで,論文も公開されています.実は私がポカしたせいで,当はもう少し結果よかったです(後述). 正解付与済みデータが与えられるということで,CRFを使った教師あり学習の枠組みに,おのおのの得意とする特徴量をこれでもかとてんこ盛りに入れ込みました.正解データを見る限り,明らかに係り関係にある単語や文節が分類に貢献していることがわかったので,私に召集令状が係った次第です.特に特許文書は一文が長く,構文解析が難しいので,NLP2010で発表したような距離期待値のテクでロバストになることを期待しました.

  • 自然言語処理では複雑なモデルの CRF は使いどころがないのだろうか - 武蔵野日記

    今日はちょっと時間がなかったので男女共同参画室のランチミーティングはそこそこに抜けさせてもらう。在宅勤務ができるかどうかの調査を頼まれたのだが、調査期間になっている7月18-31日のうち、半分以上休暇を取る予定なのだけど……。 まあ、自分に関しては、大学での仕事のうち、在宅勤務が不可能なのは勉強会出席くらい。うち、毎週出席する必要がある(自分以外に毎週出るスタッフがいない)勉強会は2つ、これとは別に研究室全体のミーティングがあり、それぞれ2-3時間程度なので、合算すると週9時間程度。現在全部別々の曜日にあるが、まとめると週2-3日勤務までは短縮できると思われる。個別のミーティングであれば、どうしても必要なら Skype を使えばいいし。(そもそも「在宅」と言われても歩いて5分のところに家があるので、在宅でやる意味はないのだけど) いや、なんとなれば勉強会も Skype で中継してもいいし…

    自然言語処理では複雑なモデルの CRF は使いどころがないのだろうか - 武蔵野日記
  • 企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記

    @descool2003 さんに教えてもらったのだが、Language Weaver という企業向け機械翻訳では世界トップの企業が、なんと昨日 SDL という会社に買収されたらしい。英日翻訳に力を入れる、と聞いていたので、え! という感じだが、どういう経緯なんだろう。 SDL というのは Trados という翻訳支援ツールを開発(した企業を買収)したことで知られており(その割に Wikipedia に Trados のページがあっても SDL のページはないが)、これは「翻訳メモリ」という考え方で作られているので有名である。 翻訳メモリというのは、自分が(もしくはグループの誰かが)過去に翻訳した例文を蓄積しておいて、新しい文を翻訳するとき類似する過去の文を参考に翻訳する(ので自分の言い回しが使い回せる)というシステムである。機械翻訳の精度が全然よくならないので、翻訳するという部分を人手に任

    企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記
  • 人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記

    昨日帰るとき、katsuhiko-h くんが論文紹介に苦しんでそうだったので(先週、先々週と彼が紹介していた)自分がやってもいいよ、と声をかけたので、午前中がんばって読んで紹介。 Jason Riesa and Daniel Marcu. Hierarchical Search for Word Alignment. ACL-2010. 思いがけずおもしろい論文であった。 簡単にまとめると、機械翻訳では単語の対応付け(どの単語がどの位置のどの単語に翻訳されるか)が重要な問題なのだが、この問題は典型的には IBM Model というのを使って(GIZA++ というツールにより)計算するのだが、これは教師なし学習(人手による正解データを用いない)であり、単語対応(アライメントと言う)のデータを作る必要がないのが利点だが、自分が「こういう対応付けになってほしい」と指定することができない、という問

    人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記
  • 大規模文字列解 析の理論と実践@IBISML - DO++

    IBISML 第一回研究会の招待講演での発表資料です。参考文献などを追加しました。 "大規模文字列解 析の理論と実践" (pdf|pptx) 最初はもっとサーベイ的にしたかったのですが、まとめあげられず、テーマを部分文字列の計量に絞ってやりました。後半の予備スライドにそのへんの名残があります。 番で口頭で説明したところは、スライドだけだと追いづらいかもしれません。 --- 研究会は武田ホールで立ち見がでるくらい盛況でした。 プログラムを見ていただければわかるとおもいますが、みなさん非常に濃い内容でした。 久しぶりのこうした研究会参加で大変刺激になりました。

    大規模文字列解 析の理論と実践@IBISML - DO++
  • 大規模テキストデータ処理の行き着く先 - 武蔵野日記

    朝7時半ごろ外を歩いていたら日差しが強い。もう夏が近いってことかなぁ。まだ8時前なのに宿舎周辺は幼稚園(保育園?)に行く子どもたちがたくさんいてびっくり。みんな早い。というかこれまでこんな時間にここ通ったことなかったかも。 NLP.app 勉強会では Jakob Uszkoreit and Thorsten Brants. "Distributed Word Clustering for Large Scale Class-Based Language Modeling in Machine Translation". ACL-2008. http://www.aclweb.org/anthology/P/P08/P08-1086.pdf という論文を紹介。単語クラスタリングというはの、どの単語とどの単語は同じグループか、というのを決める手法のことなのだが、これを大規模データでも(MapR

    大規模テキストデータ処理の行き着く先 - 武蔵野日記
  • Linuxカーネルでマルコフ連鎖してみた - nokunoの日記

    Sobe2 markovView more presentations from nokuno.

  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
  • [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記

    この文章について 最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。 文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。 問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。 一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。 最尤推定 一番簡単なモデルとしては最尤推定を使うもの

    [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記

    情報処理学会の来るべきクラウドコンピューティングの世界のイベントに参加する気満々で朝安田講堂に行ったのだが、言語処理学会のプログラムを見ていると、どうも朝はそちらを聞かないとまずそうな感じだったので、予定を変更して言語処理学会に。 自分の聞いたのは解析のセッションだったのだが、どうもパンフレットに載っている時間と実際の開始時間が違った(より正確には、情報処理学会側のプログラムに書いてある言語処理学会のセッションの開始時刻と言語処理学会側のプログラムに書いてある言語処理学会のセッションの開始時間が違った)ので、最初の発表を聞き逃す。残念。 一番おもしろかったのは 段階的な部分木間の構造判定に基づく決定的係り受け解析. ○北川浩太郎, 田中久美子 (東大) かな。決定的な係り受け解析をするのだが、素性に部分木の構造を用いていて、高速ながら精度が高いそうで(詳しくは読まないと分からないが)。ただ

    言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記
  • 言語処理学会 NLP 2010 チュートリアル大盛況 - 武蔵野日記

    今週は月曜日から言語処理学会年次大会および情報処理学会全国大会が東京大学郷キャンパスで開催されるので、それらに出席するために東京に来ている。 (こうやって並べると言語処理学会はかなり貧相だな……) 実は今週は毎日「オフィス見学会」という名前の社会科見学を企画しており、NAIST 松研究室の修士の学生を中心に、出口を知った上で研究してほしい、という気持ちから、Naver, PFI, Google, Baidu といった企業巡りをして、せっかく東京に来たメリットを享受してほしい、と思っていて、毎晩深夜近くまでそちらで潰れるので、昼はと過ごそうと思って、のんびり根津の谷という自然レストランでべる(根津交差点から10mくらい南にあるお店)。 研究(教育)を優先するか家庭を優先するかは人それぞれであるし、今後の活動を考えると今回の学会をどう過ごすかは大変悩んだのだが、一度に全部するのは不可

    言語処理学会 NLP 2010 チュートリアル大盛況 - 武蔵野日記
  • 構文解析が何に役立つのか

    思いがけずたくさんブックマークしていただいたので,この機会になんで構文解析なんかやるのかというお話を書こうと思います.おそらく,NLP界隈の人には何をいまさらと思われるかもしれませんが,それが当に役立つかというとなかなか一筋縄では行きません.今回興味を持たれた方の多くはNLP分野外の方なんじゃないかな,と勝手に考えてますのでそのつもりで書きます. 構文解析というのは,文の構造を判別する処理のことで,NLP的には単語分割,品詞タグ付け(いわゆる形態素解析)のあとにくる処理です.ソフトウェアで言えばCabochaやKNPがこれにあたります.ここに大変わかり易いチュートリアルがありますw 例えば「値段の高いワイン」が,「値段のワイン」ではなくて,「値段の高い」「高いワイン」であることを認識する技術,と理解していただければ良いと思います.このように,文節間の係り関係を解析することを,係り受け解析

  • 構文解析と情報科学

    そろそろ論文紹介記事を書いてみます. NLP2010のプログラムにもあるとおり,しばらく係り受け構文解析周りをやっていました(います).私の出身研究室では構文解析をやっている人がたくさんいたのですが,最近その面白さがなんとなくわかってきました.いや,一応私も2年間日語係り受け解析の演習担当やってたよ! 構文解析のおもしろさというのは,言語学機械学習,プログラミング,情報科学が非常にバランスよくミックスされた問題で,いろんな定式化の仕方や,いろんな技術が,いろいろな組み合わせで,かつわりとキレイな形で程々の難しさに仕上がっているあたりにあると思います.今日は,特に情報科学的教養が大事でしたという話を3つ. Non-Projective Dependency Parsing using Spanning Tree Algorithms Ryan McDonald, Fernando Per

  • Google Tech Talk in Osaka に出るために梅田まで - 武蔵野日記

    以前書いたように Google Tech Talk in Osaka で @taku910 さんが Google 日本語入力の話をしてくれるというので、@shirayu くんの車に @smly くんと乗せてもらって行ってくる。昼はすし政 中店というところだったらしい。確かに安い。カウンターに座るタイプの寿司をべたのは(アメリカべたのを除いて)久しぶりなのだが、こういうのもいいなと思った。たぶん最後に回らないお寿司屋さんに行ったのは5年前だと思う……。 講演自体についてはこちらにものすごく詳細にまとまっているので、参照されたし。(40分書いた記事があったのだが、はてなの不具合で全部消えてしまったので、リカバーする気にならない……。管理モードで書いているときはバックアップされるのでいいのだが、インライン編集モードで書いていると、投稿時に接続に問題があったとき全部消えるのは、なんとかしてほ

    Google Tech Talk in Osaka に出るために梅田まで - 武蔵野日記
  • DO++: AND検索の最尤推定

    検索技術においてAND検索、つまり二つの単語を指定して、それが両方出現している文書数の推定を高速に行うのは難しい問題です。 問題を正しく書くと単語w_xが出ている文書番号(x1,x2,x3,..,xn)とw_yが出ている文書番号(y1,y2,y3,...,ym)が与えられたら | {(i,j)|x_i = y_j} | の数を求める問題です。 これは前もって全通り求めて保存しておくにも単語種類数の二乗のオーダー分必要なのでできません。 これは機械学習でも特徴関数が0/1の値しかとらないとき、二つの要素の特徴ベクトルの内積を求める問題と同じで、またデータベースでもJOINの順番を決めるときにでてくる問題です。 普通は全体の文書からサンプルをとって、その中で数えてみて、それを元のサイズにスケールさせることをします。例えば全体文書1億件の中から文書1000件だけとってきて、その中でw_xとw_y

    DO++: AND検索の最尤推定