タグ

NLPとnlpに関するsleepy_yoshiのブックマーク (158)

  • 日本語かな漢字変換における識別モデルの適用とその考察について - Preferred Networks Research & Development

    豊橋で豊橋カレーうどんをべてきました。徳永です。 金曜日から大変な地震が発生しています。被災地の皆様のご無事と、救助に向かわれた方のご無事をお祈りいたします。 さて、今回は、3/7〜3/11の間、豊橋技科大で行われた2011年の言語処理学会年次大会の参加報告をしたいと思います。私はC4セッション(日本語入力における言語処理(1))で、「C4-6 日語かな漢字変換における識別モデルの適用とその考察」というタイトルで発表してきました。 予稿集のPDFの方は、こちらにアップロードしておきました。→日語かな漢字変換における識別モデルの適用とその考察 発表内容に関しては、予稿のPDFと発表資料の方を見ていただければと思いますが、ここではもう少しぶっちゃけて、発表の狙いなどを書いてみたいと思います。 この発表の貢献を簡単に述べると、識別モデルを使うと変換精度が上がることが実験的に確かめられたよ、

    日本語かな漢字変換における識別モデルの適用とその考察について - Preferred Networks Research & Development
  • 自然言語処理における企業と大学と学生の関係

    @ceekz 併設ワークショップ「自然言語処理における企業と大学と学生の関係」のハッシュタグは #gengo2011ws になりました。なお、諸般の事情で ust や映像保存を行いません。 http://bit.ly/h6aVby #nlp2011 2011-03-11 01:05:56 上村崇 @t_uemura 例えば企業側が「こんな技術を探しています」という投稿をする。対して登録研究者達が「それならこの研究者(室)の専門分野だよ」と投票する。結果企業と研究者がマッチングされる。推薦者にお礼が支払われる。こんなサイト作ろうよ。国益だよ #gengo2011ws #nlp2011 2011-03-11 01:12:43 上村崇 @t_uemura 例えばALBERTの場合徳島大学の北研究室にいきなりメールして画像解析の共同研究をした。テレビにも取り上げられる内容になった。でもこれってご縁

    自然言語処理における企業と大学と学生の関係
  • 言語処理学会年次大会2011に参加しました

    先週は月曜から金曜まで、豊橋技術科学大学で開催されいていた言語処理学会年次大会に参加しました。会場がホテルから遠いとか、駅から遠いとか、豊橋技科大出身の友人が何にもないよとか言ってて不安でしたが、梅村先生はじめ、技科大のスタッフの尽力のおかげでこれといった不便はありませんでした。初日に暖房が効いてなくて死ぬかと思いましたが、次の日から改善されていました。あったとすれば、「たかり事件」くらいでしょうかw 私の発表は、若手の会での発表の続きで、表現統一のために既存文書の頻出表現を動的に取り出して入力支援に活かす話です。予測入力とおもってもいいと思います。主に若手の会で@nokunoさんに質問された、頻出Nグラムを使う方法とどう違うのか、という回答をしたつもりです。文書のクオリティーを上げるために表現統一を実現したいというモチベーションと、他手法と比べて文字列集合を探索する定式化をしていたり、単

  • CICLing 2011 行ってきました - 木曜不足

    早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。 FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議を聴きに行っちゃう無謀っぷり。 ちょうど1年くらい前、まだ PRML の 10章を読んでた頃に SIG-DMSM #12 (IBISML の前身?)に のこのこ行って、「わかるところはなんとかギリギリ。わからんところは言葉からしてさっぱりわからん……」と知恵熱でそうなほどぐるぐるしてたりしてたわけだが、ちょうどおんなじ感じ。 国際会議なんだから、感想も英語。 CICLing 2011 retrospective | Shuyo's Weblog

    CICLing 2011 行ってきました - 木曜不足
  • Videolectures

  • 未知語の読み推定のためのアライメントツールmpalignerを試してみた - nokunoの日記

    「mpaligner」という名前の未知語の読み推定のためのアライメントツールが公開されていましたので、試してみました。mpaligner mpaligner とはある文字列とある文字列を最小単位でアライメントするオープンソースの プログラムです. 例えば,表記と読みのアライメントや遺伝子のアライメントが挙げられます. 図1のように表記と読みを最小単位でアライメントすることで, 単漢字辞書といった小さい単位の辞書を容易を構築できます. これは,未知語に対する読み付与などに使用されます. ライセンスは GNU GPL です.使用方法は圧縮ファイル内のREADMEを参照してください.このライブラリに、例えばmozcの辞書を読み込ませてアライメントを推定するには、以下のようにする。cat dictionary0* | awk -F "\t" '{OFS="\t";print $5, $1}' |

  • 言語処理学会の論文誌「自然言語処理」がオンライン公開されました! - nokunoの日記

    Twitterで@zelchmixijp先生のつぶやきから言語処理学会の2008年までの学会誌が公開されているのに気づきました。自然言語処理の最先端の研究を論文のPDFという形で読むことができます。閲覧は年別か、キーワード検索を行なうことができます。The error occurred in this web page. 私は最近の論文や興味のある分野の論文についてはだいたい知っていたのですが、1994年の創刊号から時系列順にまとまっているので、初期の論文がどんな感じだったかとか、90年代後半の研究動向について知ることができます。昔の論文を読むと、業界では有名な先生方の若い頃の仕事を垣間見ることができたりして、面白いです。 というわけで、いくつか紹介していきたいと思います。なおPDFにリンクを張っているので、ブラウザで開く場合はPDFを非常に高速に表示できるChrome 8以降をおすすめし

  • 決定木を用いた単語抽出 - nokunoの日記

    決定木を使って辞書なしで単語を抽出する手法に関する論文を読みました。Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning Algorithm はじめに日語と同じく、単語の分かち書きがされない言語にタイ語があります。従来は人手による辞書の整備が行われていましたが、網羅性に限界があるのとコストがかかるので自動化したいというニーズがあります。 アプローチ日語の形態素解析では系列ラベリングとして定式化されることが多いですが、この論文ではコーパス中の全部分文字列を考え、ある部分文字列が単語か非単語かを二値分類するというアプローチをとっています。このことは、前後の文脈によって単語区切りが異なることがないという前提が置かれていることになります。実際に使うときは抽出した単語を辞書として最長一致するのかな。 決定木単語と非単

  • 自然言語処理ツールの開発を成功に導くには - 武蔵野日記

    CICLing 最終日は Chris Manning さんの基調講演でスタート。Manning さんといえば自然言語処理業界のバイブル的教科書である FSNLP Foundations of Statistical Natural Language Processing (The MIT Press) 作者: Christopher Manning,Hinrich Schuetze出版社/メーカー: The MIT Press発売日: 1999/05/28メディア: ハードカバー購入: 3人 クリック: 169回この商品を含むブログ (18件) を見るやIIRことIntroduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambr

    自然言語処理ツールの開発を成功に導くには - 武蔵野日記
  • 評判辞書の中身を覗いてみた - nokunoの日記

    先日のにこにこテキストマイニング勉強会で、東工大の高村大也先生の「単語感情極性対応表」が話題になりました。PN Tableそこでこの辞書(仮に評判辞書と呼びます)を覗いてみます。wget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_en.dicwget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dicwc pn_ja.dic 55125 59133 1723987 pn_ja.dicwc pn_en.dic 88015 88015 1931411 pn_en.dicnkf -w pn_ja.dic > utf8.dicまず、辞書の上位を見てみると「優れる」を筆頭にポジティブな単語が並んでいます。less pn_ja.dic優れる:すぐれる:動詞:1良い:よい:形容詞:0.9999

  • Gmail優先トレイ論文メモ - kisa12012の日記

    元論文 “The Learning Behind Gmail Priority Inbox”, Douglas Aberdeen, Ondrey Pacovsky, Andrew Slater, LCCC : NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds. http://research.google.com/pubs/archive/36955.pdf Gmail Priority InboxにはPAが利用されていると話題になっているので,読んでみました. 簡単にまとめ PA + transfer learning + logistic model ランキング学習では,thresholdが非常に重要な働きを持つ Gmail Priority Inboxはあなたのメール処理の時間を6%短縮してくれます 1.The

    Gmail優先トレイ論文メモ - kisa12012の日記
  • 注釈付きデータ駆動の研究が辿り着くところ - ny23の日記

    2月20日から東京で開かれる某国際会議で Christopher Manning が Part-of-Speech Tagging From 97% to 100%: Is It Time for Some Linguistics?*1 と題した基調講演を行うそうだ.自分はこの会議には参加しないので,講演を聴講することはできないのだけど,著者のホームページで講演内容に関する原稿が公開されていたので読んでみた.一言でまとめると,この原稿で Manning は,業界的には半ば「終わった」とみなされている品詞タグ付けタスクにおいて,現状の解析器の誤りの半数程度が注釈付けに起因することを指摘し,それを踏まえて「注釈を修正すること」の是非を議論している.かつて品詞タグ付けタスクに取り組んだことがある人や,自分で新しくタスクを定義してデータの注釈付けに取り組んでいる人は,是非読んで欲しい*2.それ以外

    注釈付きデータ駆動の研究が辿り着くところ - ny23の日記
  • 中国語判定(というか除外)したいという話 - White scenery @showyou, hatena

    @penguinana_さんからもらったtweetの山解析してるんだけど、中には日語だけじゃなくて中国語とか英語も混ざってたりする。 この辺解析するのは時間の無駄なので機械的にカットできないかと思った。 この辺id:n_shuyoさんのlanguagedetect使って判定できると幸せなんだけど、tweetだと結構誤判定するのが残念なとこ。 http://code.google.com/p/language-detection/ でも中国語なら中国の簡体字弾くだけでも結構減らせるかなぁって。 そしたらid:takeda25さんが↓のようにやるといけると教えてくれた。 あとで試してみる。 http://d.hatena.ne.jp/takeda25/20110131 その最中にこんなの見つけた。 Pythonの自然言語処理用パッケージNLTKをインストール http://d.hatena.

    中国語判定(というか除外)したいという話 - White scenery @showyou, hatena
  • 文節区切り判定器の実装を公開 - ny23の日記

    一年ほど前に構文解析器を公開したが,(文節区切りされたデータを入力する仕様で)単体では使えない状態のままずっと放置していた.ところが最近になって,幾つかの共著論文で公開した構文解析器を引用する機会があり,このままではマズイと思ったので,現時点で使っている文節区切り - ny23の日記で書いた200行弱のシンプルな文節区切りの実装を同梱してみた.文節区切りの入出力がパイプ経由の文字列渡しなのは明らかに無駄なのだけど,気にしないことにしよう. MeCab と組み合わせる場合,解析速度は新聞記事だと入出力(UTF-8)込みで12,000文/秒,ブログ記事なら21,000文/秒程度(3.2 Ghz CPU; MeCab だけだと,新聞記事で22,000文/秒程度(入出力込み)なので,そんなに悪くない速度ではないかと)*1.係り受けのところだけで評価すると(デフォルトのパラメタで)解析精度は91.8

    文節区切り判定器の実装を公開 - ny23の日記
  • 自然言語処理・データマイニング系のQuoraまとめ - nokunoの日記

    最近、Q&AコミュニティのQuoraが流行っていますね。Quoraそこで、個人的に興味のある分野のQAについてまとめておきます。 自然言語処理・機械学習系 What is the best way to analyze a corpus of text to determine the most popular phrases? - QuoraWhat is the best open source C++ implementation of a trie? - QuoraMachine Learning: What papers have shown that for machine learning, data set size is more important than the model being trained? - QuoraNatural Language Process

  • 第4回 自然言語処理勉強会@東京 #tokyonlp - 木曜不足

    第4回 自然言語処理勉強会@東京 : ATNDに のこのこ行ってきました。主催の id:nokuno さん、参加者&発表者のみなさん、そして会場提供して下さった EC ナビさん、ありがとうございました&お疲れ様でした。 第4回 #TokyoNLP - Togetter 詳しい内容は nokuno さんによるまとめ を参照してもらって、ここではとっても短く紹介&感想。 N-gram Language Model for Speech Recognition by @y_shindohさん 音声認識と言語モデル。言語モデルとしての性能と認識精度はまた別だよ、が一番響いた。 デモが動いていた。「料理レシピで学習させたから、料理の話題なら正しく認識できる」ということがきちんと示せていたことにももちろんすごく感心したけど、「料理以外の話題だとボロボロ」もとてもおもしろかった。 特定話者に最適化とか

    第4回 自然言語処理勉強会@東京 #tokyonlp - 木曜不足
  • 人手で頑張らない注釈付きデータの作成は可能か - ny23の日記

    忘れないうちにメモ.中国の学会で感心した発表の一つに以下のような研究があった. Discriminant Ranking for Efficient Treebanking ポスター発表を聴講しただけなので,誤解しているところもあるかも知れないが,話としては単純で,曖昧性解消の注釈付けをする際に,作業者自身の履歴から曖昧性解消モデルを学習して注釈付け候補をリランキングして作業者に提示する,というもの.実際の作業を通して効果を計測しているのも良く,約1.5倍注釈付けが高速化される上,inter-rator agreement も上がったとのこと. この研究自体も面白いのだけど,人を分類器とみなして,機械学習の文脈で対応する手法を考えるとさらに興味深い.アプローチとしては, Revision Learning and its Application to Part-of-Speech Tagg

    人手で頑張らない注釈付きデータの作成は可能か - ny23の日記
  • 浅い文解析器と深い文解析器 - ny23の日記

    某資料で速度比較があって,どちらも一番速いものが20文/秒とあったけど,これは単に深い文解析器が速いと言うより,比べている浅い文解析器が遅過ぎるのではないかと思う.係り受け解析ぐらいなら,速いものなら10000文/秒ぐらいは出るでしょう(日語で transition-based なアルゴリズムで良ければ,三年前の計算機環境で,学部生の演習レベルの実装でも(多分係り受け解析のところだけだけど)7500文/秒とか出てた).深い文解析にも昔関与していた身からすると,ずいぶん速くなったなとは思うけど,後二桁ぐらいは速くならないと,Web スケールのテキスト処理には使えない(何でもクラウドを使えばいいと言うのはどうかと思う).前段の処理(品詞タグ付け)より処理速度が三桁も遅ければ,どう見ても明らかなボトルネックでしょう.逆に基礎的な解析アルゴリズムの高速化を研究する人は,前段の処理の2倍ぐらいまで

    浅い文解析器と深い文解析器 - ny23の日記
  • 双対分解による構造学習 - Preferred Networks Research & Development

    入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習(Structured Output Learning)と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。 今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。 # 構造学習についてよく知っているという方は双対分解による構造学習のところまで読み飛ばしてください。 構造学習の導入 構造を有した出力の例として、 ラベル列 (品詞、形態素列の推定、時系列におけるアクションの推定、センサ列) 木    (係り受け解析における係り受け木、構文解析木、談話分析、因果分析) グラフ  (DAG:述語項構造による意味解析 二部グラフマッチング:機械翻訳の単語対応) 順位付集合(検索における順位

    双対分解による構造学習 - Preferred Networks Research & Development
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改