タグ

ブックマーク / sucrose.hatenablog.com (12)

  • シェルスクリプトで文字列の大小比較をする - 唯物是真 @Scaled_Wurm

    シェルスクリプトのif文で文字列の辞書順の大小関係を条件判定したかったので調べました bashなどには[[]]コマンドがあるので、簡単に文字列比較ができます(ところで[[]]って検索しづらいですね [](test)コマンドの方でも文字列の大小比較はできますが、以下のように>や<をエスケープする必要があります(手元で試したらbashでは動いてzshでは動かなかった) [ string1 \< string2 ] [ string1 \> string2 ][[]]を使うと以下のように自然に書くことができます [[ string1 = string2 ]] [[ string1 == string2 ]] [[ string1 != string2 ]] [[ string1 < string2 ]] [[ string1 > string2 ]]久しぶりに書くと[]の内側や演算子の周りに空白

    シェルスクリプトで文字列の大小比較をする - 唯物是真 @Scaled_Wurm
  • アドベントカレンダーの参加者は毎年どれぐらい入れ替わっているのか?2016 - 唯物是真 @Scaled_Wurm

    去年Advent Calendarの参加者が1年間でどれぐらい入れ替わっているのか調べました sucrose.hatenablog.com せっかくなので今年も調べてみます 2016年と2015年のQiitaで公開されているアドベントカレンダーを調査の対象とします Advent Calendar 2016 - Qiita Advent Calendar 2015 - Qiita 2016年の分は466個、2015年の分は377個のアドベントカレンダーが得られました 名寄せがめんどくさかったので、上で得られたアドベントカレンダーのリストの内2016年と2015年のURLが年の部分以外一致するものを対象とします すると179個のアドベントカレンダーが残りました 去年の著者の内どの程度の割合で今年も書いているか(以下、生存率と呼ぶ)を調べます 結果 今年の参加者が10人以下のアドベントカレンダー

    アドベントカレンダーの参加者は毎年どれぐらい入れ替わっているのか?2016 - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2016/12/02
    おもしろい視点の分析
  • Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm

    Google Data Studio (データスタジオ) という可視化サービスがベータ版で使えるようになっていたので試してみた 見たい数値を一覧するためのダッシュボード的なものを作るためのサービスなので、いろんな場所からデータを取ってきて一箇所でまとめて確認するのが用途っぽい(今のところ似たようなサービス・ツールの方が機能が多そう データソース データソースとしてGoogle AnalyticsやBigQuery、Google SpreadsheetMySQLなどを選んでデータを取ってこれる データソースを選んでGUIでグラフやテキストを配置していく データの既存のフィールドに関数を適用した結果の値を使うこともできる 使える関数のリスト 下の画像ではGoogle Analyticsの「ブラウザ」(Chrome, Firefoxなど)と「ブラウザのバージョン」(バージョンの番号)をCONC

    Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2016/10/17
  • BigQueryでテーブルを日付ごとに分ける必要がなくなったり、古いテーブルのストレージ代が安くなったりするらしい - 唯物是真 @Scaled_Wurm

    ↓の記事にBigQueryの予定している新機能などが書いてあったので個人的に気になったのを紹介 cloud.google.com テーブルの自動パーティショニング まだアルファ版らしいけど、テーブルの自動パーティショニングが使えるようになるらしい BigQueryではクエリの度にテーブルがすべてスキャンされてしまうので、1日ごとなどの適切な粒度でテーブルを分ける必要があった 1つのテーブルに全部の日付分のデータをいれたような巨大なテーブルに何度もクエリを投げると、そのテーブルの大きさに応じて料金が請求されるので下記の記事のようなことになってしまう BigQueryで150万円溶かした人の顔 - Qiita たとえば[test.data_20160301], [test.data_20160302]のように日付ごとにテーブルを作ると、TABLE_DATE_RANGE関数を使って以下のようにア

    BigQueryでテーブルを日付ごとに分ける必要がなくなったり、古いテーブルのストレージ代が安くなったりするらしい - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2016/03/27
  • PHP の mt_rand() は一貫して壊れている(consistently broken)らしい - 唯物是真 @Scaled_Wurm

    PHPでMersenne Twister法で擬似乱数を生成する関数のmt_rand()にバグがあり出力がおかしい、という話が流れてきておもしろかったので簡単にまとめておく kusanoさんがmt_rand()の実装に9年以上前から1文字違いでバグがあったことを見つけて、数ヶ月後にマージされる(追記: 正確には、PHP版の実装が他と異なっているのは前から知られていたらしい*1 ) PHPに送った1文字修正するプルリクエストがマージされた🎉 mt_rand()の返す値が元のメルセンヌツイスタと異なっていた。https://t.co/Z5WJhHVyNd— kusanoさん@がんばらない (@kusano_k) February 17, 2016 その後、生成される擬似乱数列が変わってしまうので、後方互換性を壊す変更は議論してからmergeすべきということでrevertされるこの前マージされた

    PHP の mt_rand() は一貫して壊れている(consistently broken)らしい - 唯物是真 @Scaled_Wurm
  • アドベントカレンダー2015はてなブックマーク数トップ10(途中経過) - 唯物是真 @Scaled_Wurm

    昨日Qiitaのアドベントカレンダーの購読数とストック数について調べたついでにはてなブックマーク数も調べたので気が早いけどランキングを出してみた sucrose.hatenablog.com Qiita 意外と(?)上位に企業系のアドベントカレンダーが多い 順位 カレンダー名 はてなブックマーク数 1 システムエンジニア 1639 2 Vim 1500 3 第2のドワンゴ 1432 4 freee Engineers 1384 5 ピクシブ株式会社 1367 6 プログラミング大好きベーシック 1284 7 ドワンゴ 1195 8 gumi 1129 9 Yahoo! JAPAN Tech 922 10 Go その2 867 Adventar Qiitaとは毛色が違ってプログラミング系でないものが多い 順位 カレンダー名 はてなブックマーク数 1 クソアプリ 1078 2 Math 857

    アドベントカレンダー2015はてなブックマーク数トップ10(途中経過) - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2015/12/23
  • アドベントカレンダーの参加者は毎年どれぐらい入れ替わっているのか?2015 - 唯物是真 @Scaled_Wurm

    去年Advent Calendarの参加者が1年間でどれぐらい入れ替わっているのか調べましたsucrose.hatenablog.com せっかくなので今年も調べてみます 2015年と2014年のQiitaで公開されているアドベントカレンダーを調査の対象とします Advent Calendar 2015 - Qiita Advent Calendar 2014 - Qiita 2015年の分は360個、2014年の分は214個のアドベントカレンダーが得られました 名寄せがめんどくさかったので、上で得られたアドベントカレンダーのリストの内2015年と2014年のURLが年の部分以外一致するものを対象とします すると101個のアドベントカレンダーが残りました 去年の著者の内どの程度の割合で今年も書いているか(以下、生存率と呼ぶ)を調べます 結果 今年の参加者が10人以下のアドベントカレンダーは

    アドベントカレンダーの参加者は毎年どれぐらい入れ替わっているのか?2015 - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2015/12/10
    おもしろい調査だな
  • じゃんけんが終わるまでの平均回数を求める - 唯物是真 @Scaled_Wurm

    じゃんけんをするときに人数が多いとあいこが増えて、なかなか終わらなかった経験があると思います \(n\)人でじゃんけんした時に、ただ1人の勝者が決まるまでの回数の期待値(平均回数)を計算してみました また大人数でもすぐに勝負がつくゲーマーじゃんけんも取り上げています この記事ではある人がグー・チョキ・パーを出す確率はそれぞれ等しいとします じゃんけん まず結果が知りたい人のために最初にグラフを載せておきます 横軸が人数、縦軸がただ一人の勝者が決まるまでのじゃんけんの平均回数です \(10\)人で約\(24\)回、\(15\)人で約\(159\)回と、人数が増えると回数の期待値が急激に増えていくのがわかると思います 人数 回数の期待値 1 0 2 1.5 3 2.25 4 3.21428571429 5 4.48571428571 6 6.2198156682 7 8.64673579109

    じゃんけんが終わるまでの平均回数を求める - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2015/01/27
  • 来年は機械学習のコンペにもうちょっと参加したい - 唯物是真 @Scaled_Wurm

    今年はいろいろ開催されたのに全然参加できなかった 目標に「kaggleに参加する」とか書いてた気がするんだけど…… 画像認識系だとまったく手が出ないのもなんとかしたい 機械学習のコンペは、訓練データが与えられてそれで何かしら予測モデルを作って予測結果を提出するっていう形式が多いです 途中のランキング用のデータと最終評価用のデータが別にあってうまく予測できているかを競います 賞金付きなのが結構多く、学生限定とかの出場制限もあまりありません ちなみに素性エンジニアリングとかをがんばるのなら時間がある方が有利かなと思うので学生の人におすすめです(?) コンペが開催されてるサイト kaggle(英語) 一番の大手。参加者が多くて相手が強すぎる感じもする 終了後にフォーラムとかブログとかで手法が公開されていることが多いので参考になる no free hunch | the sport of data

    来年は機械学習のコンペにもうちょっと参加したい - 唯物是真 @Scaled_Wurm
  • 毎日が天皇誕生日になるには何回天皇が交代する必要があるか(シミュレーション版) - 唯物是真 @Scaled_Wurm

    今日は天皇誕生日ですが、以前「あと何回天皇が交代すれば毎日が天皇誕生日になるか(不謹慎)」の期待値を求める記事を書きました 毎日が天皇誕生日になるには何回天皇が交代する必要があるか - 唯物是真 @Scaled_Wurm 祝日と祝日の間に挟まれた日が、国民の休日で休みになるのを考慮していないという指摘を受けたので、今回はその場合の平均回数を求めます さらに、挟まれた日が国民の休日になるというのを考えると、もっとずっと複雑になるな。(考える気はない)http://t.co/AuibRNF969— Hiroshi Manabe (@takeda25) 2014, 4月 30 厳密解をどうやって求めればよいか悩んでいたら「厳密解は諦めてシミュレーションでそれっぽい値を求めればよいのでは?」というアイディアをいただきました。ありがとうございます@Scaled_Wurm ああ、ここでシミュレータと言

    毎日が天皇誕生日になるには何回天皇が交代する必要があるか(シミュレーション版) - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2014/12/23
  • ツイート時間の分布をクラスタリングしてみた - 唯物是真 @Scaled_Wurm

    前にツイート時間の分布の類似度を求めるというのをやりました Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm 今回はツイート時間でユーザーをクラスタリングして、特徴的な投稿時間のパターンがあるのか調べてみます データ収集 以前の記事と同様にTwilogの統計情報のところから時間ごとのツイート数を手動で取ってきた Twilogの自分のアカウントのリプライやRTが多いユーザーの1ページ目で、統計情報が公開されているユーザーの時刻別ツイート数を収集 各ユーザーの時刻ごとのツイート数を相対頻度に変換した(24時間のツイート数の総和が1になるように) 以下に得られたデータを示す(それぞれの線がユーザーで縦軸が相対頻度、横軸が時刻) 大雑把に見ると、一部を除いて意外と似たような形をしている クラスタリング 得られたデータをK-means++法

    ツイート時間の分布をクラスタリングしてみた - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2014/12/22
  • pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

    scikit-learn(sklearn)の日語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

    pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm
    Nyoho
    Nyoho 2013/11/12
  • 1