タグ

dmmとエロに関するbeth321のブックマーク (2)

  • 形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記

    こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し

    形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記
  • dmmのエンジニアと話をしてみたいという話(追記あり) - たごもりすメモ

    dmmは世の中のオトコノコにとっていろいろと言及するのに躊躇いつつ誰でも知っているアレなわけです。で、それなりの規模のWebサービスの裏側を見たことがある人なら誰でも、dmmの裏側はきっと物凄いことになっているに違いない、ということが想像がつくわけですね。 簡単に思い付く範囲でも以下のようなものがあります。 膨大な画像(サムネイル)および実コンテンツ(画像、動画、ソフトウェア圧縮ファイル)を配信するトラフィック しかもトップ数パーセントだけではなく、おそらくかなり裾野が広いトラフィック 膨大な商品の高速な列挙・表示 膨大な商品に関するタグつけ 膨大な商品に関する自然言語による全文検索 全トラフィックにおける膨大な量の課金・決済トランザクション 実物の通信販売に決済結果を載せる流通関連の問題 大勢のユーザに対して膨大な商品から適切に行うためのレコメンデーション これだけのことをやっているから

    dmmのエンジニアと話をしてみたいという話(追記あり) - たごもりすメモ
  • 1