データクリーニングが繁雑な作業であることを示すために、政府の統計データから日本の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。 はじめに データクリーニングは、データ分析の際に非常に重要なプロセスの1つであるが、データ分析の教科書では必ずしも十分に扱われていない。そこで、現実のデータクリーニングがどのように行われるかについて、一事例を紹介したいと思う。具体的には、統計処理に適したプログラミング言語のRを用いて、粗悪なデータから簡単な折れ線グラフが作成できる程度のきれいなデータにするまでのデータクリーニングを実施していく。 本記事の対象読者 本記事は、既存のデータに対して自らの手でデータ分析を実施している人、または実施しようと考えている人を主な対象にしている。データ分析の際にど
![Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas](https://cdn-ak-scissors.b.st-hatena.com/image/square/588ffb66dc1ebade2de8f27f76620bb601a16d94/height=288;version=1;width=512/http%3A%2F%2Fid.fnshr.info%2Fwp-content%2Fuploads%2Fsites%2F2%2F2017%2F07%2Fdata.png)