タグ

ブックマーク / xanxys.hatenablog.jp (1)

  • コーパスとしてのWikipedia - ⊥=⊥

    前のエントリでさりげなく"best"を使っていましたが、こういう単語(つまりソートに関して不変)は何個ぐらいあるのかWikipedia(英語版)から抽出した単語リストで調べてみました。 抽出 あまり知られていませんが、Wikipediaはテキストについては巨大なxmlファイルで公開しています。 最新の記事のみ(User:やWikipedia:名前空間を含まない) 履歴付き記事 全データ (展開したら2TB越えるらしい) などの種類があるようです。 しかしコーパスとして使うならば最新の記事のみで充分なのでダウンロードして展開します。 7.6G 2007-02-07 23:31 wikipedia-en-articles.xml 1.7G 2007-02-04 11:07 wikipedia-ja-articles.xml2007年でこれなので今はかなり増えているでしょう。 ここから適当に単語

    コーパスとしてのWikipedia - ⊥=⊥
  • 1