ブックマーク / sucrose.hatenablog.com (11)

  • ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm

    Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日 内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです 論文 このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D

    ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2017/10/16
  • はてなブックマーク数が多い2016年のアドベントカレンダーの記事(途中経過) - 唯物是真 @Scaled_Wurm

    去年書いたスクリプト↓がだいたいそのまま動いたのでアドベントカレンダーのはてなブックマークの合計数のランキングと記事別のランキングを今年も出してみた sucrose.hatenablog.com 全件記事を見たわけではないので変なゴミが混じっているかも 今年はディープラーニングの記事がたくさんはてブを集めていて人気を感じる ↓最終結果も出した はてなブックマーク数が多い2016年のアドベントカレンダーの記事 - 唯物是真 @Scaled_Wurm カレンダーの合計ランキング 順位 カレンダー名 はてなブックマーク数 1 システムエンジニア 3070 2 DeepLearning 1593 3 LITALICO Engineers 1535 4 N高 1504 5 Shell Script 1433 6 Fujitsu 1398 7 転職(その2) 1354 8 トレタ 1222 9 UI

    はてなブックマーク数が多い2016年のアドベントカレンダーの記事(途中経過) - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2016/12/27
  • Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm

    Google Data Studio (データスタジオ) という可視化サービスがベータ版で使えるようになっていたので試してみた 見たい数値を一覧するためのダッシュボード的なものを作るためのサービスなので、いろんな場所からデータを取ってきて一箇所でまとめて確認するのが用途っぽい(今のところ似たようなサービス・ツールの方が機能が多そう データソース データソースとしてGoogle AnalyticsやBigQuery、Google SpreadsheetMySQLなどを選んでデータを取ってこれる データソースを選んでGUIでグラフやテキストを配置していく データの既存のフィールドに関数を適用した結果の値を使うこともできる 使える関数のリスト 下の画像ではGoogle Analyticsの「ブラウザ」(Chrome, Firefoxなど)と「ブラウザのバージョン」(バージョンの番号)をCONC

    Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2016/10/17
  • BigQueryでクエリ課金額が多いユーザーを通知するbotを作ったら富豪的解決がなされた - 唯物是真 @Scaled_Wurm

    qiita.com 上の記事でBigQueryに投げたクエリのログ(Audit Log)がインポートできることを知ったので、会社で使われているBigQueryのアカウントについて毎日クエリの課金額(処理したバイト数)の多いユーザーをSlackに通知してみた ちなみにAudit Logsをインポートする設定方法はこのあたり Analyzing Audit Logs Using BigQuery  |  BigQuery Documentation  |  Google Cloud Platform 以下のクエリで計算している クエリ課金の単位のTBがテラバイト\(1000^4\)なのかテビバイト\(1024^4\)なのかよくわからなかったので、とりあえず少なめに見えて人間に優しい(?)\(1024^4\)で1日何ドルかを計算している (追記: 2017-07-01) Audit Logsのテ

    BigQueryでクエリ課金額が多いユーザーを通知するbotを作ったら富豪的解決がなされた - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2016/10/11
  • PHP の mt_rand() は一貫して壊れている(consistently broken)らしい - 唯物是真 @Scaled_Wurm

    PHPでMersenne Twister法で擬似乱数を生成する関数のmt_rand()にバグがあり出力がおかしい、という話が流れてきておもしろかったので簡単にまとめておく kusanoさんがmt_rand()の実装に9年以上前から1文字違いでバグがあったことを見つけて、数ヶ月後にマージされる(追記: 正確には、PHP版の実装が他と異なっているのは前から知られていたらしい*1 ) PHPに送った1文字修正するプルリクエストがマージされた🎉 mt_rand()の返す値が元のメルセンヌツイスタと異なっていた。https://t.co/Z5WJhHVyNd— kusanoさん@がんばらない (@kusano_k) February 17, 2016 その後、生成される擬似乱数列が変わってしまうので、後方互換性を壊す変更は議論してからmergeすべきということでrevertされるこの前マージされた

    PHP の mt_rand() は一貫して壊れている(consistently broken)らしい - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2016/02/20
  • jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm

    jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドです ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm マニュアルを見ると、条件に応じた処理とか最大値を求めるとか意外と複雑な機能も使うことができます jq Manual 軽量JSONパーサー『jq』のドキュメント:『jq Manual』をざっくり日語訳してみました | Developers.IO また以下のサイトでオンライン上で試せます jq play JSONをCSVに変換 JSONをCSVに直したい時があって使い方を調べたのでメモしておきます 単純な例 まずは単純に以下のようなJSONをCSVに変換します {"key1": 1, "key2": 2} 方法1 - 文字列展開 文字列中の\()の中身は展開さ

    jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2015/07/17
  • 日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm

    前にこんなツイートをしたけどもうちょっとちゃんとメモっておく ゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです 勝手なイメージだと、MeCab →一番使われてる 。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解する いわゆる学校でならった文法とは違う文法を使っているので注意が必要 ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる 形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ

    日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2014/12/22
  • Pythonの文字列中の変数展開(str.format)のメモ - 唯物是真 @Scaled_Wurm

    Pythonで文字列中の変数展開をするときの書式について調べたのでメモ http://docs.python.jp/2/library/string.html#formatstrings 基的に文字列中の{と}の間にいろいろと指定して、展開したい変数をformat関数に与えるようになっています ちなみにformat関数を使っている時に、{や}の文字を普通に書きたいときには{{や}}のように波カッコを2つ重ねます フィールドの指定 まずどの場所をどの値で置換するかの指定方法を説明します 基的にはこの機能を覚えておけば十分のはずです 単純な使い方 {}をformat関数に与えた順番に置換する print '{}, {}, {}'.format(1, 2, 3) 1, 2, 3 添字による指定 {}内に添字を書くとformat関数に与えた引数の何番目かを指定できる print '{2}, {

    Pythonの文字列中の変数展開(str.format)のメモ - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2014/07/27
  • Pythonのcollectionsモジュールが地味に便利 - 唯物是真 @Scaled_Wurm

    PythonのcollectionsモジュールにはdefaultdictやCounterなどの便利なデータ構造があります。 いくつかメモ代わりに紹介しておきます defaultdict 辞書にキーが含まれない場合のデフォルト値を指定できます。 リストをデフォルトで持つ辞書などが作れます。 defaultdictへの引数としては初期値のものを返す関数を与えます from collections import defaultdict d = defaultdict(list) d['Hello'].append('World') 変わった使い方としては以前別の記事でも紹介しましたが単語にIDを割り振るのに便利です 単語などをIDにマッピングする - 唯物是真 @Scaled_Wurm 以下のようなコードを書くと未知の単語が辞書に与えられたら、その単語に新たなIDを振っていくことができます。 w

    Pythonのcollectionsモジュールが地味に便利 - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2014/04/21
  • 草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm

    書きかけの記事とか書いたけど公開してない記事が溜まっているので2014年になったのを機に公開して供養していく 以下の記事はニコニコデータセットを利用しています 情報学研究データリポジトリ ニコニコデータセット ネットスラングの草「w」は以下のように笑いとか強調を表す意味で使われます 吹いたw ちょまwww クソワロタwwwwwwwwwwwwwww最近国語辞典に載ったことでも話題になりました すごい!国語辞典に、この意味を載せたのは初めてですよ! ダブリュー[W](名)①②③省略④〔←warai=笑い〕〔俗〕〔インターネットで〕(あざ)笑うことをあらわす文字。「まさかwww」(以下略) (三省堂国語辞典第七版) pic.twitter.com/bFbb1HI3XE— 三国ことは@三国ちゃん/紅白閲覧 (@sankokuziten) 2013, 12月 15 三省堂国語辞典 第七版 作者: 見

    草「w」はどんなコメントに生えるか? - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2014/01/02
  • pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

    scikit-learn(sklearn)の日語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

    pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm
    daiki_17
    daiki_17 2013/05/25
  • 1