[B! nlp] tomityのブックマーク

Loading...

tomity 2010/12/14

リンク

人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記

昨日帰るとき､katsuhiko-h くんが論文紹介に苦しんでそうだったので(先週、先々週と彼が紹介していた)自分がやってもいいよ、と声をかけたので、午前中がんばって読んで紹介。 Jason Riesa and Daniel Marcu. Hierarchical Search for Word Alignment. ACL-2010. 思いがけずおもしろい論文であった。簡単にまとめると、機械翻訳では単語の対応付け(どの単語がどの位置のどの単語に翻訳されるか)が重要な問題なのだが、この問題は典型的には IBM Model というのを使って(GIZA++ というツールにより)計算するのだが、これは教師なし学習(人手による正解データを用いない)であり、単語対応(アライメントと言う)のデータを作る必要がないのが利点だが、自分が「こういう対応付けになってほしい」と指定することができない、という問

tomity 2010/07/19

nlp

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

tomity 2010/02/01

nlp

リンク

Alchemy - Open Source AI

Alchemy: Open Source AI Welcome to the Alchemy system! Alchemy is a software package providing a series of algorithms for statistical relational learning and probabilistic logic inference, based on the Markov logic representation. Alchemy allows you to easily develop a wide range of AI applications, including: Collective classification Link prediction Entity resolution Social network modeling Info

tomity 2010/01/27

mln
nlp

リンク

リダイレクトの警告

表示中のページから http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/papers/2008-08-03-crf.ppt にリダイレクトしようとしています。このページにリダイレクトしないようにする場合は、前のページに戻ってください。

tomity 2010/01/15

NLP

リンク

Mean reciprocal rank - Wikipedia

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed. Find sources: "Mean reciprocal rank" – news · newspapers · books · scholar · JSTOR (June 2007) (Learn how and when to remove this message) The mean reciprocal rank is a statistic measure for evaluating any process that

tomity 2009/11/11

nlp
評価

リンク

つつじ：日本語機能表現辞書

ここで、「複合辞」とは、「に対して」や「なければならない」のように、複数の語から構成され、かつ、全体として機能語のように働く表現のことです。我々は、機能語と複合辞を総称して、「機能表現」と呼ぶことにします。機能表現の数日本語には、いったいどれくらいの機能表現があるのでしょうか？実は、これに答を与えるためには、「何を同一とみなすか」ということを厳密に定義する必要があります。たとえば、「に関する」と「にかんする」は同一表現でしょうか？これは、単に漢字表記とかな表記の違いですから、同一表現と考えるのが自然のように思えます。では、「に関する」と「に関して」は同一表現でしょうか？「Ａに関する調査」と「Ａに関して調査した」は、意味的に対応しますから、同一表現と考えたくなります。しかし一方で、前者は連体助詞相当（「Ａの調査」）であるのに対し、後者は格助詞相当（「Ａを調査した」）ですから、

tomity 2009/07/24

リンク

Enju - A practical HPSG parser

オンラインデモ公開中 English page 目次はじめに Enju のインストール Enju の使い方デモとウェブインタフェースマニュアルなど生命科学文献用の解析モデル参考文献はじめに Enju は英語の構文解析器です．HPSG理論に基づく文法[1-7]と高速な構文解析アルゴリズム[8-11]により，高速かつ高精度な構文解析を行い，構文構造および述語項構造を出力します．文の意味を扱うことが必要である高度な自然言語処理アプリケーション，例えば情報抽出，自動要約，質問応答などで特に有用です．この構文解析器の主な特徴は以下のとおりです．高精度かつ深い解析：構文構造だけでなく述語項構造も出力することができ，新聞記事や生命科学文献に対しては90%程度の精度で解析することができます．高速な解析：デフォルトの設定で一文平均約500ミリ秒（たいていの Penn Tre

tomity 2009/07/24

リンク

ACL Anthology

The ACL Anthology is maintained at https://aclanthology.org/ You should be redirected automatically.

tomity 2009/06/09

リンク

2009-03-14

2009-03-14 神的展開の日あ、昨日の話。午前はid:sayamatcherさんとお会いして@DBCLS、バイトのこととかを話させてもらった。4月から週一でお世話になります。なんか某メンツが揃ってしまうということでわろた。バイトの内容はこちらの興味関心を最大限に配慮していただいて、なんか… 2009-03-14 人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ機械学習 hillbig.cocolog-nifty.comということで僕が取ったメモも出してみようと思う。内容としては大体3つでオンライン学習 L1正則化索引を用いた効率化, 全ての部分文字列を利用した文書分類という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足…

tomity 2009/04/06

confidence weighted learning

nlp

リンク

スペル修正プログラムはどう書くか

Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの

tomity 2009/03/04

リンク

自然言語データに関する情報 - NAIST Computational Linguistics

概要情報処理学会「自然言語資源の共有化研究グループ」(委員：松本裕治，徳永健伸，田中裕一，佐野洋)の調査報告自然言語資源の一覧を随時整備しています．下記以外の情報をお持ちの方は，どのような情報でもお知らせいただければ幸いです． (連絡先: matsu@is.naist.jp) ↑ 関連資料 SNLR(International Workshop on Sharable Natural Language Resources, NAIST, Nara, Aug. 1994)で発表された言語資源のまとめ Jane A. Edwardsによるコーパスのサーベイ Edwards, Jane A. & Martin D. Lampert (eds.): Talking Data: Transcription and Coding in Discourse Research, London and

tomity 2009/02/16

リンク

Speech and Language Processing (2nd Ed.): Updates

Chapter 1: Introduction This chapter is largely the same with updated history and pointers to newer applications. (top) Chapter 2: Regular Expressions and Automata This chapter is largely the same with some bug fixes. (top) Chapter 3: Words and Transducers This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal

tomity 2009/02/14

nlp
book

リンク

Webページの本文抽出 (nakatani @ cybozu labs)

Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

tomity 2009/02/14

リンク

リダイレクトの警告

表示中のページから http://www.geocities.co.jp/Technopolis/5893/publication/NLP2006slide.pdf にリダイレクトしようとしています。このページにリダイレクトしないようにする場合は、前のページに戻ってください。

tomity 2009/02/10

nlp

リンク

JMLR Special Issue on Variable and Feature Selection

An Introduction to Variable and Feature Selection (Kernel Machines Section) Isabelle Guyon, André Elisseeff; 3(Mar):1157--1182, 2003. [abs][pdf] [ps.gz] [ps] Distributional Word Clusters vs. Words for Text Categorization (Kernel Machines Section) Ron Bekkerman, Ran El-Yaniv, Naftali Tishby, Yoad Winter; 3(Mar):1183--1208, 2003. [abs][pdf] [ps.gz] [ps] [data] Extensions to Metric Based M

tomity 2009/02/02

リンク

自然言語処理の学会 - DO++

プログラミング言語の学会に触発された作った。私視点で書いたので、間違ってたりしたら突っ込んでください。自然言語処理は、情報検索、ウェブ、機械学習とかとの境界領域だったりするのですが、そういうのは除いてます。大体の学会情報はACL wiki 論文はACL anthology から得られると思います ACL The Association for Computational Linguistics ACL2008 自然言語処理の一番でかい会議。理論からアプリケーションまで何でも集まるが、強いて言えば機械翻訳、構文解析が多い。いろいろなワークショップ（１０ぐらい）も併設される。 EM NLP Conference on Empirical Methods in Natural Language Processing EM NLP2008 言語情報から統計的な情報を取り出して機械学習を使って自然

tomity 2009/01/27

nlp

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク