コーパスとは? コーパス(corpus)はもともと,「ある目的のために集められたテキスト・データ」を 指しました。例えばアングロ・サクソンの作った詩を集めたデータなら the corpus of Anglo-Saxon verse です。しかし,現在ではコーパスといえば,一般に「機械可読テキストの集積」を指します。 つまりコンピュータで処理できるテキストの集まりをいいます。さらには,ただ単にテキスト・データを 集積しただけではなく,ある特定の言語の「様々な分野」から「バランスよく」抽出したテキスト・データの集まり を指します。こうしてサンプリングされたテキストデータこそ,その言語の特徴を代表しているものと考えるわけ です。もっとも,「様々な分野」とはどういう分野か,また「バランスよく」とはどのようなものかについては はっきり決まってはいません。そもそも細かく規定することよりむしろ量を増やす