ブックマーク / kenichia.hatenablog.com (1)

  • 岡三マンは何人で構成されているか自然言語処理で解析してみた - 北野坂備忘録

    Twitterで有名な「岡三マン(@okasanman)」は複数人執筆説があります。 twitter.com そこで、稿では統計解析環境「R」を用いて岡三マンが何人で執筆されているのか分析してみました。 今回は 2018/03/08 から 2018/03/18 までの 796tweet を分析対象とします。 分析にはRのライブラリ「RMeCab」を用いました。 この中の docMatrix()関数を用いるのですが、デフォルトでは名詞、動詞、形容詞のみを抽出するようになっています。 しかしながらtweetは短いので同じ名詞が出てくる可能性は極めて低く、あまり役に立ちません。 そこで今回は、人判別でよく用いられる「助詞」「助動詞」と、句読点にも着目して「記号」を抽出することにしました。 library(RMeCab) res <- docMatrix("okasand", pos = c(

    岡三マンは何人で構成されているか自然言語処理で解析してみた - 北野坂備忘録
  • 1