タグ

係り受け解析とデータベースに関するlabgaのブックマーク (1)

  • 日本語Wikipediaエントリの係り受けデータベース

    目次 日Wikipediaエントリの係り受けデータベースとは 新着情報 ダウンロード 利用方法 利用条件 リンク 公開しているその他のオープンソースツール・言語資源 高度言語情報融合フォーラム(ALAGIN)言語資源サイト 日Wikipediaエントリの係り受けデータベースとは データベースは、日語の大量(約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日)のWeb文書から、Wikipediaの記事のタイトル(エントリ)の内、二文節以上のもの(例:「三保の松原」「風と共に去りぬ」)に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム(ALAGIN)で公開してきた日語係り受けデータベース (Version 1.0)では、これらのエント

  • 1