タグ

ブックマーク / alaginrc.nict.go.jp (2)

  • 日本人1200人による英語コーパス・The NICT JLE Corpus

    人1200人による英語コーパス・The NICT JLE (Japanese Learner English) Corpus English Page コーパスについて The NICT JLE Corpusは、日語を母語とする英語学習者1,281名分の英語インタビューテスト(株式会社アルクによるStandard Speaking Test)における発話を書き起こしたデータを中心に構成されています。話し言葉の学習者コーパスとしては、世界最大級の規模のデータを収録しています(書き起こしテキストのデータのみで、音声データは含まれておりません)。 コーパスは、国立研究開発法人情報通信研究機構が株式会社アルクの協力のもと、構築しました。 ※Webサイトからダウンロードできるコーパスは、2004年既刊の書籍『日人1200人の英語スピーキングコーパス』に付属のコーパスと同様の内容です。一

  • 日本語Wikipediaエントリの係り受けデータベース

    目次 日Wikipediaエントリの係り受けデータベースとは 新着情報 ダウンロード 利用方法 利用条件 リンク 公開しているその他のオープンソースツール・言語資源 高度言語情報融合フォーラム(ALAGIN)言語資源サイト 日Wikipediaエントリの係り受けデータベースとは データベースは、日語の大量(約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日)のWeb文書から、Wikipediaの記事のタイトル(エントリ)の内、二文節以上のもの(例:「三保の松原」「風と共に去りぬ」)に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム(ALAGIN)で公開してきた日語係り受けデータベース (Version 1.0)では、これらのエント

  • 1