はじめに 大規模な評価文コーパス(Kaji and Kitsuregawa, 2006)から自動構築した評価表現辞書です. 形容詞/形容詞句と評価極性値のペアが約10,000組登録されています. 評価極性値とは評価極性の強さを表す指標で,この値が0より大きい/小さいと好評極性/不評極性を持つことになります. ここでの評価極性値は,Pointwise Mutual Informatoin (PMI)にもとにして決定しています. 詳細に関しては文献(Kaji and Kisturegawa, 2007)を参照してください. 辞書データに興味をお持ちの方は kaji (-at-) tkl.iis.u-tokyo.ac.jp まで直接ご連絡下さい. データ形式 「評価極性値 評価表現」という形式で一行に一表現が記述されています.文字コードは eucjp です. 例えば以下のようになっています. 1
はじめに 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』によ
自然言語処理+知能システム系の勉強をしたいなら、 このあたりに行くといいでしょう。 東京工業大学 奥村研究室 平成15年度未踏開発ソフトウェア創造事業blogページの自動収集と監視に基づくテキストマイニング http://shooti.jp/ に繋がるわけです 東大のコミュニティではよく「石塚研」「中川研」「辻井研」という言葉を聞きます。 石塚研究室 石塚研は知能システムを応用したアプリケーションの開発などに興味があるようです 中川研究室 機械学習勉強会やっています 辻井研究室そのメンバーでは 岡野原大輔 氏は、 この岡野原氏です。 国立情報学研究所 NIIには、国内の、特に情報検索系の研究者の3分の1はいるらしいです。 大向一輝氏はコンテンツ、インタフェースレベルの研究者ですが.... 株式会社グルコース という会社も経営しています 筑波大学 宇津呂研究室 紹介の中にははっきり書いていな
Natural Language Processing & Machine Learning † 自然言語処理においても、機械学習は重要なツールになりつつあります。 また、近年、統計的なシステムの普及と共に論文の数も増加しています。 研究者として問題解決能力を高めるためには、多くの論文に触れ、問題に 直面した際、ああ、あれがあったな、と思えることが重要です。 しかし、一人で一日に読める論文の数は1,2本です。 そこで、 学生を中心とした中川研究室の勉強会を外部に開放することにしました。 お互いに教えあうことで、知っている論文の数を何倍にも増やすのが この勉強会の目的です。 毎週一回の開催を目標としています。 ICML, NIPS, UAI, ACL, EMNLP, HLT, AAAI, IJCAI, SIG-KDD, SIGIR, JMLR, JAIR などで発表された去年と今年の論文、あ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く