ソースコードには作者ごとの特徴が現れることから、ソースコードから著者を特定できるというシステムが過去に話題になった。しかし、 米プリンストン大学などの研究によれば、GitHub上で公開されているソースコードを機械学習させることで、それをコンパイルしたバイナリからでも作者のGitHubアカウントを特定することができたという(The Register)。 ソースコードの特徴から作者を特定するというのは、古くから知られた技術であるが、コンパイルされたバイナリではそうした特徴の多くが失われるため、特定は不可能と考えられていた。しかし今回の研究では、機械学習を用いることで逆コンパイルされたソースコードからでも作者が特定できたとのこと。特にGitHubに多くのコードを挙げているプログラマーや、高いスキルを持つプログラマーほど正確に特定できたという。 この技術はマルウェアの作者特定に役立つとみられている