あけましておめでとうございます。 某書が話題になっているそうですが、直接確かめる度胸はないので形態素で把握します。 形態素の処理は適当です。 # 参考 https://gist.github.com/r-linux/4958fd92355dbae01c7b library(RMeCab) library(XML) library(dplyr) u <- "http://fox.2ch.net/test/read.cgi/poverty/1420023769/" dat_freq <- htmlParse(u) %>% xpathSApply('//dd',xmlValue) %>% paste(collapse="。") %>% RMeCabC() %>% unlist %>% data_frame(POS1=names(.), TERM=.) %>% filter (POS1 %in%