タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

dataとnlpに関するtokadaのブックマーク (4)

  • コーパス紹介 - コーパス日本語学のための情報館

    はじめに 現在、日国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日語用例・コロケーション抽出システム『茶漉』によ

    コーパス紹介 - コーパス日本語学のための情報館
  • 京都テキストコーパス

    京都テキストコーパス Version 4.0 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。 さらに、このうちの5,000文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 コーパスをダウンロード (7,990,765 bytes) 形態素・構文情報のタグ付け基準マニュアル 格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル ※ これらのマニュアルはコーパスのパッケージにも同梱されています。 注意点:ここに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれ

  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

  • 語彙概念構造

    自然言語処理研究室(竹内研) 研究 研究員 研究室紹介 講義 その他 語彙概念構造辞書 新バージョン公開です2008.3.15 著作権および使用条件について データは国立情報学研究所および岡山大学工学部情報工学科で作成した動詞 に関する語い特性を記述したもので、著作権は岡山大学工学部情報工学科竹内 孔一が保持する。データは研究目的利用ならびに商業利用など自由に無料 で使うことができる。使用に当たっては、研究であれば論文に、商業利用であ ればその商品にこの辞書を使用したことを明記していただければ十分である。 また改変した場合のデータ配布などに関しても同様でもとのデータがこれであ ることを明記すれば自由に使うことができる。 尚、データの著作権を有する岡山大学工学部情報工学科竹内孔一はデー タの利用あるいは改変されたデータに関連して生じる一切の損失に対して保障

  • 1