by Graham Neubig (2/15/2012), English このデータはWikipediaから取り出した文の中で、別の日本語のテキストに現れるn-gram をうまくカバーする文を順番に並べたものです。文の順番はまず、シードコーパスに最も 頻繁に現れるn-gram(n=1~4)を含むものを先に出力しています。複数の文がこのn-gramを 含む場合、さらに他のまだカバーされていないn-gramを多く含むものを選んでいます。 ダウンロード 閲覧 データは3つのファイルに分かれています: common-sentences.txt: 上記の順番に並べた文。以下の3文から始まります: それ だけ の こと で は あ り ま せ ん か 。 し な く て も い い 、 と い う もの で は な い と 思 い ま す 。 地下 鉄 システム の 整備 に よ っ て これ ら