[B! NLP] n_shuyoのブックマーク

The Stanford Natural Language Processing Group

About A Part-Of-Speech Tagger (POS Tagger) is a piece of software that reads text in some language and assigns parts of speech to each word (and other token), such as noun, verb, adjective, etc., although generally computational applications use more fine-grained POS tags like 'noun-plural'. This software is a Java implementation of the log-linear part-of-speech taggers described in these papers (

n_shuyo 2011/02/21

リンク

注釈付きデータ駆動の研究が辿り着くところ - ny23の日記

2月20日から東京で開かれる某国際会議で Christopher Manning が Part-of-Speech Tagging From 97% to 100%: Is It Time for Some Linguistics?*1 と題した基調講演を行うそうだ．自分はこの会議には参加しないので，講演を聴講することはできないのだけど，著者のホームページで講演内容に関する原稿が公開されていたので読んでみた．一言でまとめると，この原稿で Manning は，業界的には半ば「終わった」とみなされている品詞タグ付けタスクにおいて，現状の解析器の誤りの半数程度が注釈付けに起因することを指摘し，それを踏まえて「注釈を修正すること」の是非を議論している．かつて品詞タグ付けタスクに取り組んだことがある人や，自分で新しくタスクを定義してデータの注釈付けに取り組んでいる人は，是非読んで欲しい*2．それ以外

n_shuyo 2011/02/20

今ちょうど FSNLP の10章読んでた。そこにもその97%という数字が書かれている。10年前から変わってないのかとか、英語にとってPoS taggingってあまり重要と思われてないんだろうかとか、なんかいろいろ思う。

リンク

小規模データで単語の数を数えてみた (1) - ny23の日記

大規模データで単語の数を数える - ny23の日記で書いた Count-Min Sketch で，誤差を減らすヒューリスティクス (conservative update) New directions in traffic measurement and accounting (SIGCOMM Comput. Commun. Rev., 32(4), 2002) を実装して，動的ダブル配列を使って Wikipedia のテキスト処理を高速化 - ny23の日記の小規模データ（1.5GiB の Wikipedia 本文）の単語カウントでその効果を見てみた．考えるところはハッシュ関数に何を使うかぐらいで（キーを陽に保持しない限りは）実装はとても簡単． // GNU GPL version 2 copyright@ny23 #include <cstdio> #include <cstdl

n_shuyo 2010/11/17

リンク

Wikipedia日英京都関連文書対訳コーパス

English Page 本コーパスについて『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事（京都関連）を英語に翻訳し、作成しました。特徴人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。翻訳の過程（一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階）が記録されています。訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成

n_shuyo 2010/11/16

「人手翻訳による約25万文対を収録した精密かつ大規模なコーパスです。」すごい。これは統計機械翻訳が流行るｗ

リンク

大規模データで単語の数を数える - ny23の日記

大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の