こんにちは!大学院生として自然言語処理の研究をしている@hikaruya8です。 最近、機械学習エンジニアやデータサイエンティストの求人が増えていることから、機械学習は華やかだという印象を持たれることが多いかもしれません。しかし、決してそうではないというのが私の意見です。むしろ「泥臭い」作業がほとんどです。もちろん、その先に非常に楽しいことが待ち受けているのですが、今回は機械学習における、その「泥臭さ」の代表的な部分「データの収集と前処理」に関して書いていきたいと思います。 ※Findy Engineer Labでも先日、新卒のAI人材の初任給まとめや、2018年に新卒データサイエンティストの初任給まとめという記事を書かせていただきました。 (機械学習エンジニアやデータサイエンティストの定義は企業や条件によって様々なため、ここでは割愛させていただきます。) 機械学習で携わる時間の7割は収集