TensorFlow2.0 Advent Calendar 2019の11日目です。 tf.data.Dataset APIを用いてテキストの前処理を行う方法をまとめたいと思います。 本記事では以下の順に説明します。 tf.data.Dataset APIとは何か、また、その有効性は何かを説明 実際にテキストの前処理の手続きを説明 performance向上のtipsのまとめ 説明が長いので(コードも長いですが。。。)コードだけ見て俯瞰したい場合はこちらから参照できます。 (注意として、本記事の内容は十分な検証ができているとは言えないです。コードは動きますが、パフォーマンスの向上に寄与しているのかいまいち把握しきれていないところがいくつかあります。随時更新していきますが、参考程度に留めておいていただけたらと思います。) 同アドベントカレンダーでは以下の記事が関連します。こちらも参考にされる