xiangzeのブックマーク - はてなブックマーク

東京の新型コロナウイルス感染者数はキリがよい数字が多かったりするのか下一桁を見てみた - 唯物是真 @Scaled_Wurm

2021-07-30 の感染者数が3300人でキリがよかったので、キリがよい数字がどれぐらい出てるか気になった。とりあえず下一桁の数字がそれぞれどんな回数でてるか見てみた。あまり内容がある話ではないので先に結果を書いておくと、特に下一桁が0のものが多かったりはしなさそうでした(それはそう) データこのページでCSVが公開されていたのでそれを使う。使いやすい形で公開されていてありがたい。東京都福祉保健局が Creative Commons — 表示 4.0 国際 — CC BY 4.0 で公開している(おそらく) catalog.data.metro.tokyo.lg.jp 最初の方の日付は使わずに2021年以降のデータだけを使った中身を見ると 0や9がちょっと多そうにも見えましたが東京の感染者数の下一桁のカウントscipy.stats.chisquare を使って全部が均等に出

xiangze 2022/12/04

リンク

コミックマーケット92で入手した技術系の同人誌のメモ(SIGNICO, SIGCOWW, Girls Manifold) - 唯物是真 @Scaled_Wurm

今回は機械学習系などでTwitterで見かけたのを入手した気になった記事だけ触れます SIGNICO 『SIGNICO vol.4』 SIGNICO 冊子版とPDF版があったのでPDF版を手に入れたミスマッチ判別機を用いたイラストの着色転写手法の提案線画と色情報を表す参照用の画像を使って、指定した色風の画像を生成する画像から色情報を抽出するようなネットワークと、抽出された色情報と線画を入力として画像を生成するネットワークと、抽出された色情報と線画がマッチしたものであるかどうかを判別するネットワークでGAN的なことをしている自由にポーズを変えられる画像生成 OpenPoseを使うと画像から人間のポーズを抽出できるこの抽出されたポーズからGAN(pix2pix)を使って画像を生成しているニューラルネットワークで画像圧縮ニューラルネットワークを使った画像の圧縮手法のWaveOne

xiangze 2017/08/14

リンク

はてなブックマーク数が多い2016年のアドベントカレンダーの記事(途中経過) - 唯物是真 @Scaled_Wurm

去年書いたスクリプト↓がだいたいそのまま動いたのでアドベントカレンダーのはてなブックマークの合計数のランキングと記事別のランキングを今年も出してみた sucrose.hatena blog.com 全件記事を見たわけではないので変なゴミが混じっているかも今年はディープラーニングの記事がたくさんはてブを集めていて人気を感じる ↓最終結果も出したはてなブックマーク数が多い2016年のアドベントカレンダーの記事 - 唯物是真 @Scaled_Wurm カレンダーの合計ランキング順位カレンダー名はてなブックマーク数 1 システムエンジニア 3070 2 DeepLearning 1593 3 LITALICO Engineers 1535 4 N高 1504 5 Shell Script 1433 6 Fujitsu 1398 7 転職（その２） 1354 8 トレタ 1222 9 UI

xiangze 2016/12/20

python

リンク

AtCoderのレーティングの分布について調べてみた - 唯物是真 @Scaled_Wurm

競技プログラミングサイトのAtCoderのレーティングの仕組みが新しくなりました別の競技プログラミングサイトであるCodeforcesのレーティングとどれぐらい相関があるのか、参加回数がどれぐらいあればレーティングに差がなくなってくるのかなど気になったので調べてみましたちなみにたまにAtCoderに参加してますが、最近は全然解けないでレーティングの変動がなくなってきました(弱いデータの収集 AtCoderの方は、AtCoderのレーティングのランキングのページから表示されてるデータをすべて取ってきます CodeforcesはAPIがあるのでそれを使います Codeforces API - Codeforces http://codeforces.com/api/user.ratedList で1度でも参加したことのあるユーザーの情報を取ってくることができます(重いです) AtCode

xiangze 2016/10/05

リンク

論文感想: "Personalized PageRank vectors for tag recommendations: inside FolkRank" (RecSys 2011) - 唯物是真 @Scaled_Wurm

Personalized PageRank vectors for tag recommendations 概要ユーザーとアイテムとタグのデータが与えられた時に、ユーザーとアイテムに対するタグの推薦を行う方法としてFolkRankというアルゴリズムがよく使われている(らしい)。このアルゴリズムを近似的に計算して、計算量を削減して高速に処理できるようにしている。方法 PageRank FolkRankは基本的に(Personalized) PageRankアルゴリズムを元にしている。簡単に説明するとPageRankはグラフ構造上のどのノードが重要かということを推定してくれるこの論文ではグラフの形を変えるのと、preference vector (damping factor) というどのノードが重要かという事前知識を与えるベクトルを変えることによって、アルゴリズムを変更している F

xiangze 2016/03/31

リンク

jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm

jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドですニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm マニュアルを見ると、条件に応じた処理とか最大値を求めるとか意外と複雑な機能も使うことができます jq Manual 軽量JSONパーサー『jq』のドキュメント：『jq Manual』をざっくり日本語訳してみました｜ Developers.IO また以下のサイトでオンライン上で試せます jq play JSONをCSVに変換 JSONをCSVに直したい時があって使い方を調べたのでメモしておきます単純な例まずは単純に以下のようなJSONをCSVに変換します {"key1": 1, "key2": 2} 方法1 - 文字列展開文字列中の\()の中身は展開さ

xiangze 2015/07/18

リンク

pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。どちらかっていうとよく使う機能の紹介的な感じです。英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは？ scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

xiangze 2015/05/25

リンク

pixivの小説を機械学習で男性向けと女性向けに分類する - 唯物是真 @Scaled_Wurm

最近Web小説が人気でいろいろ書籍化されたりアニメ化したりしています今期のアニメでは『ダンジョンに出会いを求めるのは間違っているだろうか』が放送されていておすすめです(アニメに合わせてKindle版の1,2巻が値下げされています) ダンジョンに出会いを求めるのは間違っているだろうか (GA文庫) 作者: 大森藤ノ,ヤスダスズヒト出版社/メーカー: SBクリエイティブ発売日: 2013/01/16メディア: 文庫購入: 1人クリック: 50回この商品を含むブログ (32件) を見るダンジョンに出会いを求めるのは間違っているだろうか外伝ソード・オラトリア (GA文庫) 作者: 大森藤ノ,はいむらきよたか,ヤスダスズヒト出版社/メーカー: SBクリエイティブ発売日: 2014/01/15メディア: 文庫この商品を含むブログ (5件) を見る前に小説家になろうのデータでいくつか記事を書きまし

xiangze 2015/04/12

nlp
python

リンク

Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm

以前集合やベクトルの類似度の記事を書いたんですが、確率分布の類似度には触れていなかったのでついでに書きましたツイート時間分布の類似度を求める今回はツイート時間ごとの頻度を正規化して、確率分布とみなして類似度を計算してみます私のアカウント(以下mainと表記)に対して、私のもう一つのアカウント(以下subと表記)+私がリプライを送ってる数が多い(以下friendと表記)上位5人と比較します subがfriendよりも似た結果になることを期待しています以下にツイート時間の分布(main + sub + friend 5人)を載せましたある程度似ていますが、人によってそこそこ形が違っていて、特に午前中の投稿時間の差は特徴的に見えますまたfriend1の一人だけは大きく違った傾向を示しています以下ではこれらが定量的にどれぐらい異なるのか類似度を計算して比較していきますグラフを描くの

xiangze 2015/02/14

リンク

ニコニコ動画『スナップショット検索API』に触ってみた - 唯物是真 @Scaled_Wurm

一人アドベントカレンダーの一日目です(違 10月にニコニコ動画から『スナップショット検索API』というのが出ていたので触ってみました毎日朝5時の時点のデータのスナップショットから検索できるAPIでニコニコ動画のコンテンツを解析する目的で検索/取得する際に利用できますとのことですニコニコ動画『スナップショット検索API』ガイド APIはhttp://api.search.nicovideo.jp/api/snapshot/に以下のようなJSONをPOSTする方式になっています(各々フィールドの詳細はドキュメントを参照) { "query" : 検索キーワード "service" : 検索対象サービスリスト, "search" : 検索対象フィールドリスト, "join" : 取得対象フィールドリスト, "filters" : フィルタ指定リスト(オプション), "sort_by" :

xiangze 2014/12/12

リンク

Pythonのcollectionsモジュールが地味に便利 - 唯物是真 @Scaled_Wurm

PythonのcollectionsモジュールにはdefaultdictやCounterなどの便利なデータ構造があります。いくつかメモ代わりに紹介しておきます defaultdict 辞書にキーが含まれない場合のデフォルト値を指定できます。リストをデフォルトで持つ辞書などが作れます。 defaultdictへの引数としては初期値のものを返す関数を与えます from collections import defaultdict d = defaultdict(list) d['Hello'].append('World') 変わった使い方としては以前別の記事でも紹介しましたが単語にIDを割り振るのに便利です単語などをIDにマッピングする - 唯物是真 @Scaled_Wurm 以下のようなコードを書くと未知の単語が辞書に与えられたら、その単語に新たなIDを振っていくことができます。 w

xiangze 2014/04/21

python

リンク

特徴量(素性)を作るときのメモ + scikit-learnにちょっと触る - 唯物是真 @Scaled_Wurm

機械学習のデータとして特徴量を作るときの注意点や悩むことなどをメモっておきました。間違いなどが含まれているかもしれません。基本的な内容ですので調べればもっと適切なやり方があると思います。カテゴリカル・データカテゴリカル・データというのは、いくつかの限られた種類の値をとり、その大小関係に意味が無いものです。質的データとか名義尺度とか呼ばれることもあります。例えば都道府県のデータを考えた時に、北海道と沖縄は違う値ですが、その大小関係は定義できません。 (もちろん北海道と沖縄に面積的な大小関係などはありますが、欲しい情報ではないとします) カテゴリカル・データを特徴量にするときにはカテゴリーごとにその特徴であるかどうかの二値にするとよいと言われています以下に例を示します。それぞれの列がデータごとの特徴量を表していると考えてください北海道:1 沖縄:0 東京:0 北海道:0 沖縄:

xiangze 2014/03/15

リンク

小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という

xiangze 2014/01/11

リンク

クラソル(CrowdSolving)の第3回コンペの結果: 1/16位 - 唯物是真 @Scaled_Wurm

クラソル(CrowdSolving)の第3回コンペに参加中(途中経過: 1/16位) - 唯物是真 @Scaled_Wurm 途中経過は上の記事みたいな感じでしたが、最終結果も1位でした【チャレンジコンペ】記事間のリンク推定 | CrowdSolving このコンペに際して、リンク予測に関する情報を探したんですが、id:reposeさんの以下の記事が面白かったです Supervised random walks: predicting and recommending links in social networks(WSDM 2011) 読んだ & リンク予測の話をした - 糞ネット弁慶 IJCNN Social Network Challengeの勝者が取った手法(deanonymize)は許されるか？ - 糞ネット弁慶

xiangze 2013/09/16

機械学習

リンク

正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurm

多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei 上の記事を読んで勉強になったのですが、数式がテキストで読みづらかったのと、多変量でない1次元の正規分布の導出の段階でよくわからなかったので調べて記事にまとめました注意数式はMathJax(JavaScriptのライブラリ)を使って表示しています SVGが描画できないと表示されないので、最近のブラウザで閲覧してください KLダイバージェンス(Kullback–Leibler divergence) 確率分布の差の大きさを測る尺度。機械学習の分野だとパラメータの最適化などは、結局KLダイバージェンスの最小化と同じになることが多い。本とか論文を読んでいるとよく出てくる式 2つの確率分布$P, Q$を考える確率分布が連続確率分布の時KLダイバージェンスは以下のようになる $$D_{\mat

xiangze 2013/07/23

リンク

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

xiangze 2013/06/22

ニコニコ動画

リンク

コミックマーケット83の同人誌の感想(統計とかプログラミング - 唯物是真 @Scaled_Wurm

大晦日のコミケに行って来ました。買ってきたもののうちプログラミングとか統計とかの本の感想です。あまり買ってないです。他にも情報系のサークルがたくさんあったんですが、あまり事前にチェックしていなかったので回れませんでした。声優統計 by voice-statistics 『声優統計第一号』冬のコミックマーケット(C83)一日目で「声優統計第一号」を出します - 糞ネット弁慶すごく論文とか学会誌っぽい見た目です。色々と面白い内容だった。特に声優の結婚時期推定の話はヤバイ。 DVDの売上予測の話も面白かった。あとbag-of-声優モデルという名前には笑った。声優に関するドメイン知識が私にはないため、あまり深い内容についてはわからず……。あとWikipediaの記事のPV数を見れるサイト↓があるという情報を知れてためになった。 Wikipedia article traf

xiangze 2013/05/27

リンク

CrowdSolving第1回コンペに参加しました 5/43位 - 唯物是真 @Scaled_Wurm

CrowdSolving | データ分析・予測モデル作成のコンペサイトのコンペが終わったので、結果とかアプローチとか書いときます以前書いた記事↓ CrowdSolvingに参加中 - あるいは機械学習関連のメモ - 唯物是真 @Scaled_Wurm タスクコンテンツ販売サービスの会員離脱予測 | CrowdSolving タスクはユーザーの退会予測となっています。ユーザーの一週間の行動(イベントタイプと日時のペア)が与えられた時に、一か月後ユーザーが退会するかどうかを予測します。順位順位最終結果は5位でした。ちなみに最終日の暫定順位が3位で、一番よかった時が2位でした。結構順位が下がってるので過学習っぽいですね。過学習の恐怖，またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶アプローチ基本的に10分割交差検定の結果を見ながらモデルや

xiangze 2013/04/20

リンク

はてなブックマーク

タグ

ブックマーク / sucrose.hatenablog.com (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス