タグ

ブックマーク / sucrose.hatenablog.com (8)

  • ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm

    Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日 内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです 論文 このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D

    ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
  • 読書記録『説得とヤル気の科学――最新心理学研究が解き明かす「その気にさせる」メカニズム』☆☆☆☆ - 唯物是真 @Scaled_Wurm

    最近やる気がでない(?)ので読んでみようかと思ったのですが、どちらかというと他人に対してやる気を出させる方法の話みたいです 以下いくつかメモ 人のやる気を出させる要因 帰属意識 集団への帰属意識、他人の模倣 習慣 新しい習慣を身に付けるときには既存の習慣につけたすと習慣化しやすい 物語の力 その人のペルソナが持つストーリーを考える アメとムチ 新しい行動を定着させるためには、最初は行動するたびにアメ(強化刺激)を与えるとよい。 ただし強化刺激を与えなくなると定着させた行動も止まってしまいがちになる。 ある行動を長く続けさせるためには強化刺激を与えるまでの回数や期間を変動させながら与えればよい。 能 獲得の可能性よりも喪失の可能性の方が強いモチベーションになる 悲しみや不安を感じている時には新しいものよりも馴染みのあるものを欲しがる 熟達願望 長期的にはアメよりも効果的 「自分は特別な存在

    読書記録『説得とヤル気の科学――最新心理学研究が解き明かす「その気にさせる」メカニズム』☆☆☆☆ - 唯物是真 @Scaled_Wurm
    skozawa
    skozawa 2014/07/14
  • 草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm

    書きかけの記事とか書いたけど公開してない記事が溜まっているので2014年になったのを機に公開して供養していく 以下の記事はニコニコデータセットを利用しています 情報学研究データリポジトリ ニコニコデータセット ネットスラングの草「w」は以下のように笑いとか強調を表す意味で使われます 吹いたw ちょまwww クソワロタwwwwwwwwwwwwwww最近国語辞典に載ったことでも話題になりました すごい!国語辞典に、この意味を載せたのは初めてですよ! ダブリュー[W](名)①②③省略④〔←warai=笑い〕〔俗〕〔インターネットで〕(あざ)笑うことをあらわす文字。「まさかwww」(以下略) (三省堂国語辞典第七版) pic.twitter.com/bFbb1HI3XE— 三国ことは@三国ちゃん/紅白閲覧 (@sankokuziten) 2013, 12月 15 三省堂国語辞典 第七版 作者: 見

    草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm
  • LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm

    LIBSVM -- A Library for Support Vector MachinesとかLIBLINEAR -- A Library for Large Linear Classificationを使って二値分類の問題で遊んでいました。 その時にすぐにわからなかったことのメモ。 Accuracy以外の尺度を出力する 普通LIBSVMやLIBLINEARを使ってクロスバリデーションをするとAccuracyが出力されますが、二値分類においてはその他の尺度PrecisionやRecall、F値やAUCなどが見たい時があります。 LibSVMのcross validationオプションでprecision/recallを出力する - 睡眠不足?! こちらの記事ではLIBSVMでPrecisionやRecall、F値を出力させるパッチが公開されています。 簡単に適用できてわかりやすいです。

    LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm
  • Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm

    以前集合やベクトルの類似度の記事を書いたんですが、確率分布の類似度には触れていなかったのでついでに書きました ツイート時間分布の類似度を求める 今回はツイート時間ごとの頻度を正規化して、確率分布とみなして類似度を計算してみます 私のアカウント(以下mainと表記)に対して、私のもう一つのアカウント(以下subと表記)+私がリプライを送ってる数が多い(以下friendと表記)上位5人と比較します subがfriendよりも似た結果になることを期待しています 以下にツイート時間の分布(main + sub + friend 5人)を載せました ある程度似ていますが、人によってそこそこ形が違っていて、特に午前中の投稿時間の差は特徴的に見えます またfriend1の一人だけは大きく違った傾向を示しています 以下ではこれらが定量的にどれぐらい異なるのか類似度を計算して比較していきます グラフを描くの

    Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm
  • Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

    gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。 コーパスの作り方 以下の公式の例で説明します この例ではリスト内のそれぞれの要素が1つの文書となります

    Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
  • 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

    小説家になろうというWeb小説投稿サイトがあります。 いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。 続々と「小説家になろう」から書籍化作品が登場! - フラン☆Skin はてな支店 小説を読もう! || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。 解析手法 トピックモデルというものを用います。 これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。 今回はLDA(Latent Dirichlet Allocation)という

    小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
  • 1