タグ

ブックマーク / oscillograph.hateblo.jp (2)

  • AVタイトルの特徴分析 その2 - oscillographの日記

    前回の記事はこちら(形態素解析に基づくAVタイトルの特徴分析) ニコニコ学会から「内容的に全年齢対象で発表は無理」と言われてしまったので こちらで結果の報告をさせていただきたいと思います。 特徴的な語に関する経年変化 まず、単純な集計結果をもとに特徴のある単語を3パターンに分類し それぞれについて見ていこうと思います。 年々割合が上がっている単語(供給Up) どうですか、この供給量アップ。 「○出し」はいったん割合が落ち込みましたが2010年を境に徐々に回復しつつあります。 年々割合が下がっている単語(供給Down) 私は「女子高生」好きなんですけどね。 年々割合が上がっても下がってもいない単語(安定供給) 「素人」についての予想ですが、「素人が来る!」と考えて2011年に多く出したのが失敗して年々下がっていると考えられます。 人、熟女は比較的安定していますね。 主成分分析による各年の特

    AVタイトルの特徴分析 その2 - oscillographの日記
  • 形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記

    こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し

    形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記
  • 1