タグ

2011年9月16日のブックマーク (1件)

  • コーパス・言語データ - Negative/Positive Thinking

    はじめに 言語処理するのに基となるデータ(言語データ、コーパス)についてまとめてみる。 データ・テキストマイニングなどに。必要に応じてダウンロードして試してみたい。 コーパス(corpus)とは 自然言語処理の研究に用いるために、自然言語の文章(用例)を構造化し大規模に集積したもの(電子データ) 辞書は、言語データだけど用例ではないのでコーパスではない よいコーパスとは、より対象をよくとらえているもの 特定の著者の小説を集めたもの(その著者の言語情報をよくとらえている) 新聞記事(新聞に使われている言語情報をよくとらえている) 例えば「日語」のコーパスというのは、「日語」を的確にとらえてなくてはいけない 新聞記事だけでは「日語」の一部しかとらえられていない(ブログなどはとらえられていない) コーパスの種類 生コーパス:収集したままでなんの情報も付加されていないコーパス タグ付きコーパ

    コーパス・言語データ - Negative/Positive Thinking
    mwsoft
    mwsoft 2011/09/16