2019年5月12日 -- 新バージョン -- 重複排除, もう少しきれい JESCは、機械翻訳、情報抽出及びその他の言語処理技術の研究開発をサポートするために構築されました。 JESCは、スタンフォード大学、グーグルブレイン、RITの共同研究開発による成果であり 、インターネット上からクロールされた映i画とTV番組の字幕データを日英対応させることで構築されています。JESCは、自由に利用できる日英対訳コーパスの中で最大規模のコーパスであり、既存のコーパスではあまり扱われてこなかった口語の対訳も対象しています。 このデータセットを作るために使われたスクリプト、ツール、及びクローラーは、ここからダウンロードすることができます。 このデータはクリエイティブ・コモンズ (CC) ライセンスの下で提供されています。 280万文から構成される大規模対訳コーパス。 俗語、口語、説明文、物語解説の対訳。