はじめはScholarly Kitchen以外の色々なソースから集めようと思ったんですが、多すぎて収拾がつかなくなったのでひとまず。 Data-mining Google Books: Does the Reader Have To Be Human? « The Scholarly Kitchen 「著作権法には抵触しない、なぜならこのプロジェクトで取り込んだ本は、たとえ1センテンスであっても(人間が)読むことはできないから」というグーグルの主張について。 グーグルがGoogle Booksでスキャンしたデータをもとに、1500年代〜今までの出版物に登場した単語をデータベース化。現在、このデータベースは誰でもダウンロードできるようになっている。サンプルとして簡単なサーチ画面も提供されている。たとえば「Micky Mouse」と「Samurai」のどちらが先に洋書の中で使われるようになった