検索とcorpusに関するzanninoのブックマーク (1)

  • 概要 国語研日本語ウェブコーパス(NWJC)

    データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20

    zannino
    zannino 2017/03/07
    コーパスとは「テキストや発話を大規模に集めてデータベース化した言語資料」。日本語コーパスと検索システムが公開中。アレクサ日本語版早く使ってみたい。
  • 1