タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

wikipediaとnlpに関するInoHiroのブックマーク (2)

  • 日本語Wikificationコーパス ver 0.1 (2016/03/10)

    コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。 日語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。 コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。 時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名(「二階」「南口」「202号室」等) BCCWJ

  • コーパス - Wikipedia

    コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。 概要[編集] 「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。 大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現し

    コーパス - Wikipedia
  • 1