米国・マサチューセッツ工科大学(MIT)の研究チームが、ネイティブでない英語話者が書いた英文に文法や構文の注釈をすべて入れ、データベースとして公開した。この種のデータベースとしては初の大規模なものだという(MIT Newsの記事、 The Vergeの記事)。 データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。 データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制など