以下、R言語を用いて、表型のデータにおいて重複している箇所を取り出す方法を紹介していきたいと思う。 解法1:dplyr パッケージを使う dplyr パッケージを使うことで、簡単に重複しているデータを抽出することができる。具体的には、group_by()を使って ID となっている列を指定し、filter(n() > 1) でIDに重複がある行(レコード)を抽出することにある。 具体的なコードの例を見てみよう。ここでは、先に挙げた作家名・作品名が載った表を literature というデータフレームに入れている。 # 必要なパッケージの読み込み library("dplyr") # 操作対象となるデータフレームの準備 literature <- data.frame( ID = c(2435, 5342, 4813, 2435, 8791, 9318, 6534), 作家名 = c("夏目