タグ

ブックマーク / www-tsujii.is.s.u-tokyo.ac.jp (7)

  • Enju - A practical HPSG parser

    オンラインデモ公開中 English page 目次 はじめに Enju のインストール Enju の使い方 デモとウェブインタフェース マニュアルなど 生命科学文献用の解析モデル 参考文献 はじめに Enju は英語の構文解析器です.HPSG理論に基づく文法[1-7]と高速な構文解 析アルゴリズム[8-11]により,高速かつ高精度な構文解析を行い,構文構造お よび述語項構造を出力します.文の意味を扱うことが必要である高度な自然言 語処理アプリケーション,例えば情報抽出,自動要約,質問応答などで特に有 用です. この構文解析器の主な特徴は以下のとおりです. 高精度かつ深い解析: 構文構造だけでなく述語項構造も出力する ことができ,新聞記事や生命科学文献に対しては90%程度の精度で解析する ことができます. 高速な解析: デフォルトの設定で一文平均約500ミリ秒(たいていの Penn Tre

  • 第2回最先端NLP勉強会

    概要 自然言語処理分野においてトップカンファレンスと言われるNAACL HLT 2010,ACL 2010で発表された論文の中から,参加者の投票によって厳選した論文を読みます. 勉強会の参加者は,各自1~2の論文を担当し,全体で30程度の論文の発表を聞きます. 第1回目は東京大学辻井研内部での開催でしたが,今回は研究室の枠を超え,東京近郊の様々な研究室(8研究室)の学生・研究者の方にご参加頂きます. このイベントを通じて,研究者間の活発な情報交換・意見交換・交流が行われ,今後の研究に活かされることを期待しています. スケジュール 10月6日(水)

  • Tsujii Lab. Enshu3 -- Japanese Dependency Analysis

    という文に対して、私の、高い、ワインを、二宮さんに、飲まれた、という各文節間の係り受け関係「私の→ワインを」・「高い→ワインを」・「ワインを→飲まれた。」・「二宮さんに→飲まれた」を求めることです。 機械学習を用いた日語係り受け解析は、ここ数年自然言語処理におけるホットトピックの一つとなっていて、我々のグループでも、最高精度の結果を出したことがあります(参考文献[1])。その当時より、研究室内で機械学習のためのライブラリが充実してきているので、演習の1ヶ月という短期間でも最新の研究に匹敵する結果(精度90%程度)を出すことができるかもしれません。 課題内容 課題のメインテーマである機械学習とは、簡単に言えば、ある現象に関して既存のデータの振る舞いから未知のデータの振る舞いを推定する確率モデルを作るということです。この課題の文脈にこれを当てはめれば、日語の係り受けという言語現象に関して

  • 辻井研究室

    辻井研究室へようこそ 東京大学辻井研究室では、40人程のメンバーが自然言語処理(計算言語学)の研究を行っており、 今日コンピュータによって利用できるようになった膨大な量のテキストデータを用いて、 人間の言語を自然に処理できるような手法を開発することを目指しています。 私たちの研究対象は、言語学と計算機科学に基いた構文・意味解析や機械学習などの基礎的な分野から、 テキストマイニング、機械翻訳、情報検索などの応用的な分野まで多岐にわたっています。 進行中のプロジェクトでは、 それらの研究によって得られた基礎的な知識と実践的な手法の両方を駆使して、 実際の問題に取り組んでいます。 What's New 2008年7月24日 Enju 2.3がリリースされました。 2008年2月12,13日 「機械学習と自然言語処理」をテーマとしたT-FaNT 2が2月12,13日に行われました。 研究室か

  • Minise: MIni Search Engine

    ウェブサイトは現在工事中です.ソースコード公開は10/24頃を予定しています. 概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです.検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができます. 索引の種類として逐次検索,転置ファイル,N-gram,接尾辞配列をサポートしています.また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます. 主な利用用途として、小〜中規模の検索向けまた,教育用,研究用目的に使われることを想定されております. ダウンロード Miniseはフリーソフトウェアです.修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開 使い方

  • Tx: Succinct Trie Data Structure

    English 概要 TxはコンパクトなTrieを構築するためのライブラリです.従来のTrieの実装(darts等)に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です.Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます.内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています. ダウンロード Txはフリーソフトウェアです.BSD ライセンスに従ってソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx

  • 岡野原大輔 - Tsujii Laboratory Members

    〒113-0033 東京都文京区郷7-3-1 東京大学大学院 情報理工学系研究科 コンピュータ科学専攻 e-mail: hillbig (at)is.s.u-tokyo.ac.jp オフィス: 理学部7号館 615号室 +Tel: +81/03 5803 1697 Fax: +81/0 3 5802 8872 自己紹介 2007年4月から東京大学大学院情報理工学系研究科・コンピュータ科学専攻博士課程に在籍し、統計的自然言語処理を中心に研究しています。 研究の興味 大規模なコーパスから得られた統計情報を利用した自然言語処理に関心があり、工学的(データ構造、アルゴリズム)、および理論的(学習理論、情報理論)の両面から研究を行っています。 キーワード 機械学習, 言語モデル、情報検索 簡潔データ構造, 圧縮接尾辞配列/木 データ圧縮、凸最適化 学術関連のEvent(最近12ヶ月) 2007年9

  • 1