[B! wikipedia][nlp] InoHiroのブックマーク

InoHiro id:InoHiro

wikipediaとnlpに関するInoHiroのブックマーク (2)

日本語Wikificationコーパス ver 0.1 (2016/03/10)
本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。日本語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。本コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。本コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名（「二階」「南口」「202号室」等） BCCWJ
InoHiro 2016/04/27
wikipedia

nlp
リンク
コーパス - Wikipedia
コーパス（英: corpus）は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報（品詞、統語構造など）を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。概要[編集] 「身体」を意味するラテン語: corpus に由来する。複数形はラテン語: corpora（コーポラ）。英語式複数形とした英語: corpuses の使用も散見される。大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現し
InoHiro 2013/02/13
wikipedia

nlp
リンク
1