タグ

データマイニングに関するarcenemy7334のブックマーク (5)

  • 進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!

    はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、

    進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
    arcenemy7334
    arcenemy7334 2013/08/05
    pixivはホンマ業の深い場所やで…
  • ビッグデータもバズワードになったんだなあ - やまもといちろうBLOG(ブログ)

    取引先とのメールで話題爆発(というか面白がり)していた。移動中なので、軽く触れる。先月の記事なんだね。箇条書きにするお。 屋とデータマイニングと季節外れの冬物衣料 http://d.hatena.ne.jp/AntiBayesian/20130423 前提: 内容をすべて否定するものではない。そういう見解も成立するし、ためにする議論ではない。 その1: 「データマイニングに必要なのは意外性だ!」 そもそも意外とか仮説の段階で言っているとしたら、それは使えないデータ担当者だ。クビにするべき。 その2: これを利用して小売店や流通業界はデータマイニングをした。どんな意外性のある結果が出てきたと思う?例えばこんなものだった。「冬は鍋の検索回数が多い」 なんたる自明! 小売や流通は常に売り場面積や仕入れ対販売という係数に支配されていて、いつまで鍋が検索されて需要があるかというようなロングテール的

    ビッグデータもバズワードになったんだなあ - やまもといちろうBLOG(ブログ)
  • 「精度高すぎ」と話題のニュースキュレーション『Gunosy』は、どんな設計思想で作られているのか? - エンジニアtype | 転職type

    2012.12.17 転職 ここ最近、個人の関心や嗜好に合わせて情報を紹介するキュレーションサービスが人気だ。Amazonのような大手ECサイトで利用が進む「レコメンド」や「キュレーション」技術を情報配信分野に応用したサービスだが、このカテゴリーの中で、特に注目を集めているサービスがある。 それが、現役東大大学院生3人が立ち上げた『Gunosy(グノシー)』だ。 自らを「スマートなパーソナルマガジン」と命名している『Gunosy』 人気を集めている理由は、その手軽さと推薦情報の的確さにある。 ユーザーが『Gunosy』を利用するにあたって唯一すべきことは、最初にFacebookもしくはTwitterのアカウントを利用してサービスサイトにログインすることだけ。 あとは『Gunosy』独自のレコメンドエンジンが、過去にユーザーがポストした投稿内容の傾向やソーシャルグラフ内でのアクティビティを分

    「精度高すぎ」と話題のニュースキュレーション『Gunosy』は、どんな設計思想で作られているのか? - エンジニアtype | 転職type
  • 統計学を勉強するときに知っておきたい7つのポイント

    マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。 1. 学習機会やテキストは山のようにあるので利用する 確率・統計の日語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日語のものも少なくない。また「マンガでわかる統計学」のよ

    統計学を勉強するときに知っておきたい7つのポイント
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 1