本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。 日本語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。 本コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。本コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。 時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名(「二階」「南口」「202号室」等) BCCWJ