タグ

ブックマーク / sucrose.hatenablog.com (18)

  • 東京の新型コロナウイルス感染者数はキリがよい数字が多かったりするのか下一桁を見てみた - 唯物是真 @Scaled_Wurm

    2021-07-30 の感染者数が3300人でキリがよかったので、キリがよい数字がどれぐらい出てるか気になった。 とりあえず下一桁の数字がそれぞれどんな回数でてるか見てみた。 あまり内容がある話ではないので先に結果を書いておくと、特に下一桁が0のものが多かったりはしなさそうでした(それはそう) データ このページでCSVが公開されていたのでそれを使う。使いやすい形で公開されていてありがたい。 東京都福祉保健局が Creative Commons — 表示 4.0 国際 — CC BY 4.0 で公開している(おそらく) catalog.data.metro.tokyo.lg.jp 最初の方の日付は使わずに2021年以降のデータだけを使った 中身を見ると 0や9がちょっと多そうにも見えましたが 東京の感染者数の下一桁のカウントscipy.stats.chisquare を使って全部が均等に出

    東京の新型コロナウイルス感染者数はキリがよい数字が多かったりするのか下一桁を見てみた - 唯物是真 @Scaled_Wurm
    xiangze
    xiangze 2022/12/04
  • コミックマーケット92で入手した技術系の同人誌のメモ(SIGNICO, SIGCOWW, Girls Manifold) - 唯物是真 @Scaled_Wurm

    今回は機械学習系などでTwitterで見かけたのを入手した 気になった記事だけ触れます SIGNICO 『SIGNICO vol.4』 SIGNICO 冊子版とPDF版があったのでPDF版を手に入れた ミスマッチ判別機を用いたイラストの着色転写手法の提案 線画と色情報を表す参照用の画像を使って、指定した色風の画像を生成する 画像から色情報を抽出するようなネットワークと、抽出された色情報と線画を入力として画像を生成するネットワークと、抽出された色情報と線画がマッチしたものであるかどうかを判別するネットワークでGAN的なことをしている 自由にポーズを変えられる画像生成 OpenPoseを使うと画像から人間のポーズを抽出できる この抽出されたポーズからGAN(pix2pix)を使って画像を生成している ニューラルネットワークで画像圧縮 ニューラルネットワークを使った画像の圧縮手法のWaveOne

    コミックマーケット92で入手した技術系の同人誌のメモ(SIGNICO, SIGCOWW, Girls Manifold) - 唯物是真 @Scaled_Wurm
  • はてなブックマーク数が多い2016年のアドベントカレンダーの記事(途中経過) - 唯物是真 @Scaled_Wurm

    去年書いたスクリプト↓がだいたいそのまま動いたのでアドベントカレンダーのはてなブックマークの合計数のランキングと記事別のランキングを今年も出してみた sucrose.hatenablog.com 全件記事を見たわけではないので変なゴミが混じっているかも 今年はディープラーニングの記事がたくさんはてブを集めていて人気を感じる ↓最終結果も出した はてなブックマーク数が多い2016年のアドベントカレンダーの記事 - 唯物是真 @Scaled_Wurm カレンダーの合計ランキング 順位 カレンダー名 はてなブックマーク数 1 システムエンジニア 3070 2 DeepLearning 1593 3 LITALICO Engineers 1535 4 N高 1504 5 Shell Script 1433 6 Fujitsu 1398 7 転職(その2) 1354 8 トレタ 1222 9 UI

    はてなブックマーク数が多い2016年のアドベントカレンダーの記事(途中経過) - 唯物是真 @Scaled_Wurm
  • AtCoderのレーティングの分布について調べてみた - 唯物是真 @Scaled_Wurm

    競技プログラミングサイトのAtCoderのレーティングの仕組みが新しくなりました 別の競技プログラミングサイトであるCodeforcesのレーティングとどれぐらい相関があるのか、参加回数がどれぐらいあればレーティングに差がなくなってくるのかなど気になったので調べてみました ちなみにたまにAtCoderに参加してますが、最近は全然解けないでレーティングの変動がなくなってきました(弱い データの収集 AtCoderの方は、AtCoderのレーティングのランキングのページから表示されてるデータをすべて取ってきます CodeforcesはAPIがあるのでそれを使います Codeforces API - Codeforces http://codeforces.com/api/user.ratedList で1度でも参加したことのあるユーザーの情報を取ってくることができます(重いです) AtCode

    AtCoderのレーティングの分布について調べてみた - 唯物是真 @Scaled_Wurm
  • 論文感想: "Personalized PageRank vectors for tag recommendations: inside FolkRank" (RecSys 2011) - 唯物是真 @Scaled_Wurm

    Personalized PageRank vectors for tag recommendations 概要 ユーザーとアイテムとタグのデータが与えられた時に、ユーザーとアイテムに対するタグの推薦を行う方法としてFolkRankというアルゴリズムがよく使われている(らしい)。 このアルゴリズムを近似的に計算して、計算量を削減して高速に処理できるようにしている。 方法 PageRank FolkRankは基的に(Personalized) PageRankアルゴリズムを元にしている。 簡単に説明するとPageRankはグラフ構造上のどのノードが重要かということを推定してくれる この論文ではグラフの形を変えるのと、preference vector (damping factor) というどのノードが重要かという事前知識を与えるベクトルを変えることによって、アルゴリズムを変更している F

    論文感想: "Personalized PageRank vectors for tag recommendations: inside FolkRank" (RecSys 2011) - 唯物是真 @Scaled_Wurm
    xiangze
    xiangze 2016/03/31
  • jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm

    jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドです ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm マニュアルを見ると、条件に応じた処理とか最大値を求めるとか意外と複雑な機能も使うことができます jq Manual 軽量JSONパーサー『jq』のドキュメント:『jq Manual』をざっくり日語訳してみました | Developers.IO また以下のサイトでオンライン上で試せます jq play JSONをCSVに変換 JSONをCSVに直したい時があって使い方を調べたのでメモしておきます 単純な例 まずは単純に以下のようなJSONをCSVに変換します {"key1": 1, "key2": 2} 方法1 - 文字列展開 文字列中の\()の中身は展開さ

    jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm
  • pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

    scikit-learn(sklearn)の日語の入門記事があんまりないなーと思って書きました。 どちらかっていうとよく使う機能の紹介的な感じです。 英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは? scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。 また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。 インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

    pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm
  • pixivの小説を機械学習で男性向けと女性向けに分類する - 唯物是真 @Scaled_Wurm

    最近Web小説が人気でいろいろ書籍化されたりアニメ化したりしています 今期のアニメでは『ダンジョンに出会いを求めるのは間違っているだろうか』が放送されていておすすめです(アニメに合わせてKindle版の1,2巻が値下げされています) ダンジョンに出会いを求めるのは間違っているだろうか (GA文庫) 作者: 大森藤ノ,ヤスダスズヒト出版社/メーカー: SBクリエイティブ発売日: 2013/01/16メディア: 文庫購入: 1人 クリック: 50回この商品を含むブログ (32件) を見るダンジョンに出会いを求めるのは間違っているだろうか外伝 ソード・オラトリア (GA文庫) 作者: 大森藤ノ,はいむらきよたか,ヤスダスズヒト出版社/メーカー: SBクリエイティブ発売日: 2014/01/15メディア: 文庫この商品を含むブログ (5件) を見る前に小説家になろうのデータでいくつか記事を書きまし

    pixivの小説を機械学習で男性向けと女性向けに分類する - 唯物是真 @Scaled_Wurm
  • Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm

    以前集合やベクトルの類似度の記事を書いたんですが、確率分布の類似度には触れていなかったのでついでに書きました ツイート時間分布の類似度を求める 今回はツイート時間ごとの頻度を正規化して、確率分布とみなして類似度を計算してみます 私のアカウント(以下mainと表記)に対して、私のもう一つのアカウント(以下subと表記)+私がリプライを送ってる数が多い(以下friendと表記)上位5人と比較します subがfriendよりも似た結果になることを期待しています 以下にツイート時間の分布(main + sub + friend 5人)を載せました ある程度似ていますが、人によってそこそこ形が違っていて、特に午前中の投稿時間の差は特徴的に見えます またfriend1の一人だけは大きく違った傾向を示しています 以下ではこれらが定量的にどれぐらい異なるのか類似度を計算して比較していきます グラフを描くの

    Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm
  • ニコニコ動画 『スナップショット検索API』 に触ってみた - 唯物是真 @Scaled_Wurm

    一人アドベントカレンダーの一日目です(違 10月にニコニコ動画から『スナップショット検索API』というのが出ていたので触ってみました 毎日朝5時の時点のデータのスナップショットから検索できるAPIでニコニコ動画のコンテンツを解析する目的で検索/取得する際に利用できますとのことです ニコニコ動画 『スナップショット検索API』 ガイド APIはhttp://api.search.nicovideo.jp/api/snapshot/に以下のようなJSONをPOSTする方式になっています(各々フィールドの詳細はドキュメントを参照) { "query" : 検索キーワード "service" : 検索対象サービスリスト, "search" : 検索対象フィールドリスト, "join" : 取得対象フィールドリスト, "filters" : フィルタ指定リスト(オプション), "sort_by" :

    ニコニコ動画 『スナップショット検索API』 に触ってみた - 唯物是真 @Scaled_Wurm
  • Pythonのcollectionsモジュールが地味に便利 - 唯物是真 @Scaled_Wurm

    PythonのcollectionsモジュールにはdefaultdictやCounterなどの便利なデータ構造があります。 いくつかメモ代わりに紹介しておきます defaultdict 辞書にキーが含まれない場合のデフォルト値を指定できます。 リストをデフォルトで持つ辞書などが作れます。 defaultdictへの引数としては初期値のものを返す関数を与えます from collections import defaultdict d = defaultdict(list) d['Hello'].append('World') 変わった使い方としては以前別の記事でも紹介しましたが単語にIDを割り振るのに便利です 単語などをIDにマッピングする - 唯物是真 @Scaled_Wurm 以下のようなコードを書くと未知の単語が辞書に与えられたら、その単語に新たなIDを振っていくことができます。 w

    Pythonのcollectionsモジュールが地味に便利 - 唯物是真 @Scaled_Wurm
  • 特徴量(素性)を作るときのメモ + scikit-learnにちょっと触る - 唯物是真 @Scaled_Wurm

    機械学習のデータとして特徴量を作るときの注意点や悩むことなどをメモっておきました。 間違いなどが含まれているかもしれません。 基的な内容ですので調べればもっと適切なやり方があると思います。 カテゴリカル・データ カテゴリカル・データというのは、いくつかの限られた種類の値をとり、その大小関係に意味が無いものです。 質的データとか名義尺度とか呼ばれることもあります。 例えば都道府県のデータを考えた時に、北海道と沖縄は違う値ですが、その大小関係は定義できません。 (もちろん北海道と沖縄に面積的な大小関係などはありますが、欲しい情報ではないとします) カテゴリカル・データを特徴量にするときにはカテゴリーごとにその特徴であるかどうかの二値にするとよいと言われています 以下に例を示します。それぞれの列がデータごとの特徴量を表していると考えてください 北海道:1 沖縄:0 東京:0 北海道:0 沖縄:

    特徴量(素性)を作るときのメモ + scikit-learnにちょっと触る - 唯物是真 @Scaled_Wurm
  • 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

    小説家になろうというWeb小説投稿サイトがあります。 いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。 続々と「小説家になろう」から書籍化作品が登場! - フラン☆Skin はてな支店 小説を読もう! || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。 解析手法 トピックモデルというものを用います。 これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。 今回はLDA(Latent Dirichlet Allocation)という

    小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
  • クラソル(CrowdSolving)の第3回コンペの結果: 1/16位 - 唯物是真 @Scaled_Wurm

    クラソル(CrowdSolving)の第3回コンペに参加中(途中経過: 1/16位) - 唯物是真 @Scaled_Wurm 途中経過は上の記事みたいな感じでしたが、最終結果も1位でした 【チャレンジコンペ】記事間のリンク推定 | CrowdSolving このコンペに際して、リンク予測に関する情報を探したんですが、id:reposeさんの以下の記事が面白かったです Supervised random walks: predicting and recommending links in social networks(WSDM 2011) 読んだ & リンク予測の話をした - 糞ネット弁慶 IJCNN Social Network Challengeの勝者が取った手法(deanonymize)は許されるか? - 糞ネット弁慶

    クラソル(CrowdSolving)の第3回コンペの結果: 1/16位 - 唯物是真 @Scaled_Wurm
  • 正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurm

    多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei 上の記事を読んで勉強になったのですが、数式がテキストで読みづらかったのと、多変量でない1次元の正規分布の導出の段階でよくわからなかったので調べて記事にまとめました 注意 数式はMathJax(JavaScriptのライブラリ)を使って表示しています SVGが描画できないと表示されないので、最近のブラウザで閲覧してください KLダイバージェンス(Kullback–Leibler divergence) 確率分布の差の大きさを測る尺度。 機械学習の分野だとパラメータの最適化などは、結局KLダイバージェンスの最小化と同じになることが多い。 とか論文を読んでいるとよく出てくる 式 2つの確率分布\(P, Q\)を考える 確率分布が連続確率分布の時KLダイバージェンスは以下のようになる $$D_{\mat

  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
  • コミックマーケット83の同人誌の感想(統計とかプログラミング - 唯物是真 @Scaled_Wurm

    大晦日のコミケに行って来ました。 買ってきたもののうちプログラミングとか統計とかのの感想です。 あまり買ってないです。 他にも情報系のサークルがたくさんあったんですが、あまり事前にチェックしていなかったので回れませんでした。 声優統計 by voice-statistics 『声優統計 第一号』 冬のコミックマーケット(C83)一日目で「声優統計 第一号」を出します - 糞ネット弁慶 すごく論文とか学会誌っぽい見た目です。 色々と面白い内容だった。 特に声優の結婚時期推定の話はヤバイ。 DVDの売上予測の話も面白かった。 あとbag-of-声優モデルという名前には笑った。 声優に関するドメイン知識が私にはないため、あまり深い内容についてはわからず……。 あとWikipediaの記事のPV数を見れるサイト↓があるという情報を知れてためになった。 Wikipedia article traf

    コミックマーケット83の同人誌の感想(統計とかプログラミング - 唯物是真 @Scaled_Wurm
  • CrowdSolving第1回コンペに参加しました 5/43位 - 唯物是真 @Scaled_Wurm

    CrowdSolving | データ分析・予測モデル作成のコンペサイトのコンペが終わったので、結果とかアプローチとか書いときます 以前書いた記事↓ CrowdSolvingに参加中 - あるいは機械学習関連のメモ - 唯物是真 @Scaled_Wurm タスク コンテンツ販売サービスの会員離脱予測 | CrowdSolving タスクはユーザーの退会予測となっています。 ユーザーの一週間の行動(イベントタイプと日時のペア)が与えられた時に、一か月後ユーザーが退会するかどうかを予測します。 順位 順位 最終結果は5位でした。 ちなみに最終日の暫定順位が3位で、一番よかった時が2位でした。 結構順位が下がってるので過学習っぽいですね。 過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶 アプローチ 基的に10分割交差検定の結果を見ながらモデルや

    CrowdSolving第1回コンペに参加しました 5/43位 - 唯物是真 @Scaled_Wurm
  • 1