タグ

nlpに関するtomityのブックマーク (31)

  • Loading...

  • 人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記

    昨日帰るとき、katsuhiko-h くんが論文紹介に苦しんでそうだったので(先週、先々週と彼が紹介していた)自分がやってもいいよ、と声をかけたので、午前中がんばって読んで紹介。 Jason Riesa and Daniel Marcu. Hierarchical Search for Word Alignment. ACL-2010. 思いがけずおもしろい論文であった。 簡単にまとめると、機械翻訳では単語の対応付け(どの単語がどの位置のどの単語に翻訳されるか)が重要な問題なのだが、この問題は典型的には IBM Model というのを使って(GIZA++ というツールにより)計算するのだが、これは教師なし学習(人手による正解データを用いない)であり、単語対応(アライメントと言う)のデータを作る必要がないのが利点だが、自分が「こういう対応付けになってほしい」と指定することができない、という問

    人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記
    tomity
    tomity 2010/07/19
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    tomity
    tomity 2010/02/01
  • Alchemy - Open Source AI

    Alchemy: Open Source AI Welcome to the Alchemy system! Alchemy is a software package providing a series of algorithms for statistical relational learning and probabilistic logic inference, based on the Markov logic representation. Alchemy allows you to easily develop a wide range of AI applications, including: Collective classification Link prediction Entity resolution Social network modeling Info

    tomity
    tomity 2010/01/27
  • リダイレクトの警告

    表示中のページから http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/papers/2008-08-03-crf.ppt にリダイレクトしようとしています。 このページにリダイレクトしないようにする場合は、前のページに戻ってください。

    tomity
    tomity 2010/01/15
  • Mean reciprocal rank - Wikipedia

    This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed. Find sources: "Mean reciprocal rank" – news · newspapers · books · scholar · JSTOR (June 2007) (Learn how and when to remove this message) The mean reciprocal rank is a statistic measure for evaluating any process that

  • つつじ:日本語機能表現辞書

    ここで、「複合辞」とは、「に対して」や「なければならない」のように、複数の語から構成され、かつ、全体として機能語のように働く表現のことです。 我々は、機能語と複合辞を総称して、「機能表現」と呼ぶことにします。 機能表現の数 日語には、いったいどれくらいの機能表現があるのでしょうか? 実は、これに答を与えるためには、「何を同一とみなすか」ということを厳密に定義する必要があります。 たとえば、「に関する」と「にかんする」は同一表現でしょうか? これは、単に漢字表記とかな表記の違いですから、同一表現と考えるのが自然のように思えます。 では、「に関する」と「に関して」は同一表現でしょうか? 「Aに関する調査」と「Aに関して調査した」は、意味的に対応しますから、同一表現と考えたくなります。しかし一方で、前者は連体助詞相当(「Aの調査」)であるのに対し、後者は格助詞相当(「Aを調査した」)ですから、

  • Enju - A practical HPSG parser

    オンラインデモ公開中 English page 目次 はじめに Enju のインストール Enju の使い方 デモとウェブインタフェース マニュアルなど 生命科学文献用の解析モデル 参考文献 はじめに Enju は英語の構文解析器です.HPSG理論に基づく文法[1-7]と高速な構文解 析アルゴリズム[8-11]により,高速かつ高精度な構文解析を行い,構文構造お よび述語項構造を出力します.文の意味を扱うことが必要である高度な自然言 語処理アプリケーション,例えば情報抽出,自動要約,質問応答などで特に有 用です. この構文解析器の主な特徴は以下のとおりです. 高精度かつ深い解析: 構文構造だけでなく述語項構造も出力する ことができ,新聞記事や生命科学文献に対しては90%程度の精度で解析する ことができます. 高速な解析: デフォルトの設定で一文平均約500ミリ秒(たいていの Penn Tre

  • ACL Anthology

    The ACL Anthology is maintained at https://aclanthology.org/ You should be redirected automatically.

  • 2009-03-14

    2009-03-14 神的展開の日 あ、昨日の話。午前はid:sayamatcherさんとお会いして@DBCLS、バイトのこととかを話させてもらった。4月から週一でお世話になります。なんか某メンツが揃ってしまうということでわろた。バイトの内容はこちらの興味関心を最大限に配慮していただいて、なんか… 2009-03-14 人工知能問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ 機械学習 hillbig.cocolog-nifty.comということで僕が取ったメモも出してみようと思う。内容としては大体3つで オンライン学習 L1正則化 索引を用いた効率化, 全ての部分文字列を利用した文書分類 という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足…

    2009-03-14
    tomity
    tomity 2009/04/06
    confidence weighted learning
  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

  • 自然言語データに関する情報 - NAIST Computational Linguistics

    概要 情報処理学会「自然言語資源の共有化研究グループ」(委員:松裕治,徳永健伸,田中裕一,佐野洋)の調査報告 自然言語資源の一覧を随時整備しています. 下記以外の情報をお持ちの方は,どのような情報でもお知らせいただければ幸いです. (連絡先: matsu@is.naist.jp) ↑ 関連資料 SNLR(International Workshop on Sharable Natural Language Resources, NAIST, Nara, Aug. 1994)で発表された言語資源のまとめ Jane A. Edwardsによるコーパスのサーベイ Edwards, Jane A. & Martin D. Lampert (eds.): Talking Data: Transcription and Coding in Discourse Research, London and

  • Speech and Language Processing (2nd Ed.): Updates

    Chapter 1: Introduction This chapter is largely the same with updated history and pointers to newer applications. (top) Chapter 2: Regular Expressions and Automata This chapter is largely the same with some bug fixes. (top) Chapter 3: Words and Transducers This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • リダイレクトの警告

    表示中のページから http://www.geocities.co.jp/Technopolis/5893/publication/NLP2006slide.pdf にリダイレクトしようとしています。 このページにリダイレクトしないようにする場合は、前のページに戻ってください。

    tomity
    tomity 2009/02/10
  • JMLR Special Issue on Variable and Feature Selection

    An Introduction to Variable and Feature Selection     (Kernel Machines Section) Isabelle Guyon, André Elisseeff; 3(Mar):1157--1182, 2003. [abs][pdf] [ps.gz] [ps] Distributional Word Clusters vs. Words for Text Categorization     (Kernel Machines Section) Ron Bekkerman, Ran El-Yaniv, Naftali Tishby, Yoad Winter; 3(Mar):1183--1208, 2003. [abs][pdf] [ps.gz] [ps]    [data] Extensions to Metric Based M

  • 自然言語処理の学会 - DO++

    プログラミング言語の学会に触発された作った。私視点で書いたので、間違ってたりしたら突っ込んでください。 自然言語処理は、情報検索、ウェブ、機械学習とかとの境界領域だったりするのですが、そういうのは除いてます。 大体の学会情報はACL wiki 論文はACL anthology から得られると思います ACL The Association for Computational Linguistics ACL2008 自然言語処理の一番でかい会議。理論からアプリケーションまで何でも集まるが、強いて言えば 機械翻訳、構文解析が多い。いろいろなワークショップ(10ぐらい)も併設される。 EMNLP Conference on Empirical Methods in Natural Language Processing EMNLP2008 言語情報から統計的な情報を取り出して機械学習を使って自然

    自然言語処理の学会 - DO++
    tomity
    tomity 2009/01/27
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • http://www.chasen.org/~taku/publications/nl161.pdf