skozawaのブックマーク - はてなブックマーク

ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm

Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです論文このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D

skozawa 2017/10/16

ABテスト

リンク

読書記録『説得とヤル気の科学――最新心理学研究が解き明かす「その気にさせる」メカニズム』☆☆☆☆ - 唯物是真 @Scaled_Wurm

最近やる気がでない(？)ので読んでみようかと思ったのですが、どちらかというと他人に対してやる気を出させる方法の話みたいです以下いくつかメモ人のやる気を出させる要因帰属意識集団への帰属意識、他人の模倣習慣新しい習慣を身に付けるときには既存の習慣につけたすと習慣化しやすい物語の力その人のペルソナが持つストーリーを考えるアメとムチ新しい行動を定着させるためには、最初は行動するたびにアメ(強化刺激)を与えるとよい。ただし強化刺激を与えなくなると定着させた行動も止まってしまいがちになる。ある行動を長く続けさせるためには強化刺激を与えるまでの回数や期間を変動させながら与えればよい。本能獲得の可能性よりも喪失の可能性の方が強いモチベーションになる悲しみや不安を感じている時には新しいものよりも馴染みのあるものを欲しがる熟達願望長期的にはアメよりも効果的「自分は特別な存在

skozawa 2014/07/14

リンク

草「ｗ」はどんなコメントに生えるか？ - 唯物是真 @Scaled_Wurm

書きかけの記事とか書いたけど公開してない記事が溜まっているので2014年になったのを機に公開して供養していく以下の記事はニコニコデータセットを利用しています情報学研究データリポジトリニコニコデータセットネットスラングの草「ｗ」は以下のように笑いとか強調を表す意味で使われます吹いたｗちょまｗｗｗクソワロタｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗ最近国語辞典に載ったことでも話題になりましたすごい！国語辞典に、この意味を載せたのは初めてですよ！ダブリュー[W](名)①②③省略④〔←warai=笑い〕〔俗〕〔インターネットで〕(あざ)笑うことをあらわす文字。「まさかwww」(以下略) (三省堂国語辞典第七版) pic.twitter.com/bFbb1HI3XE— 三国ことは@三国ちゃん／紅白閲覧 (@sankokuziten) 2013, 12月 15 三省堂国語辞典第七版作者: 見

skozawa 2014/01/02

単語
NLP

リンク

LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm

LIBSVM -- A Library for Support Vector MachinesとかLIBLINEAR -- A Library for Large Linear Classificationを使って二値分類の問題で遊んでいました。その時にすぐにわからなかったことのメモ。 Accuracy以外の尺度を出力する普通LIBSVMやLIBLINEARを使ってクロスバリデーションをするとAccuracyが出力されますが、二値分類においてはその他の尺度PrecisionやRecall、F値やAUCなどが見たい時があります。 LibSVMのcross validationオプションでprecision/recallを出力する - 睡眠不足？！こちらの記事ではLIBSVMでPrecisionやRecall、F値を出力させるパッチが公開されています。簡単に適用できてわかりやすいです。

skozawa 2013/12/30

LIBSVM
SVM

リンク

Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm

以前集合やベクトルの類似度の記事を書いたんですが、確率分布の類似度には触れていなかったのでついでに書きましたツイート時間分布の類似度を求める今回はツイート時間ごとの頻度を正規化して、確率分布とみなして類似度を計算してみます私のアカウント(以下mainと表記)に対して、私のもう一つのアカウント(以下subと表記)+私がリプライを送ってる数が多い(以下friendと表記)上位5人と比較します subがfriendよりも似た結果になることを期待しています以下にツイート時間の分布(main + sub + friend 5人)を載せましたある程度似ていますが、人によってそこそこ形が違っていて、特に午前中の投稿時間の差は特徴的に見えますまたfriend1の一人だけは大きく違った傾向を示しています以下ではこれらが定量的にどれぐらい異なるのか類似度を計算して比較していきますグラフを描くの

skozawa 2013/11/12

リンク

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。コーパスの作り方以下の公式の例で説明しますこの例ではリスト内のそれぞれの要素が1つの文書となります

skozawa 2013/11/05

リンク

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

skozawa 2013/06/17

リンク

小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という

skozawa 2013/05/13

リンク

はてなブックマーク

タグ

ブックマーク / sucrose.hatenablog.com (8)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス