こんにちは AIチームの戸田です。 先日、質問応答タスクの一つ、SQuAD 2.0(The Stanford Question Answering Dataset)をGoogle Translate APIを使って翻訳しました。 正確な回答位置の翻訳が困難だったため、文書単位での回答位置推定問題になってしまいますが、なにかに応用していただけたらいいと思い、翻訳したデータをKaggle Datasetに公開しました。(元のSQuAD 2.0はCC BY-SA 4.0 licenseだったので継承しています) 今回はそのデータを作ったときの手順を紹介したいと思います。 SQuADとは SQuADは、Wikipedia の記事の内容に対する質問とその回答を、クラウドソーシングで作られた読解タスクのデータセットです。回答となる文書が記事のどこにあるのかを人間が質問を作っているので、読解を特に重要視