1 11. テキスト処理 (コーパスの処理) 自然言語処理論 I 2 例文集 実際に使用されている例文を大量に集めたもの テキストコーパス 文章を集めたもの 新聞記事、雑誌、小説、辞書など 音声コーパス 音声データを集めたもの 対話、インタビュー、講演など コーパス(corpus)とは? 3 昔 機械可読データを集めること自体が困難 コーパスの量が重視された 今 電子化文書の普及 新聞記事、レポート、ウェブ文書、blog コーパスにどのような付加的な情報をつけるかと いうことに重点が置かれている 注釈付きコーパス(annotated corpus) 量から質へ 4 コーパスに情報を付加したコーパス 主なもの (平文コーパス) 品詞タグ付きコーパス 単語の品詞 単語境界 構文構造付きコーパス 文の構文木 文節の係り受け関係 注釈付きコーパス 5 主なもの 語義タグ付きコーパス 単語の語義 パ