タグ

dataに関するgumkamのブックマーク (3)

  • DeNA流データエンジニアリングの極意

    Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-nioke…

    DeNA流データエンジニアリングの極意
  • 情報学研究データリポジトリ ニコニコデータセット

    国立情報学研究所が(株)ドワンゴから提供を受けて研究者に提供しているデータセットです。 2024/11/25 更新 データ概要 ニコニコ動画コメント等データ 「ニコニコ動画」にサービス開始当初から2021年9月30日までに投稿された約2,000万件の動画のメタデータと,それに対する約41億件のコメントデータです。動画データ体は含まれません。また,ユーザIDは削除されています。 動画メタデータ タイトル,説明文,タグ,投稿日時,再生数,コメント数などのデータです。 JSON形式のファイルで,1,000ファイル(1ファイルあたり約2万動画分),ファイルサイズは合計で約15GBです。 コメントデータ コメント文,投稿日時,書き込み再生位置などのデータです。 JSON形式のファイルで,1つの動画につき1ファイルとなっています。 圧縮ファイルで約86GBあり,展開すると合計で約573GBとなりま

  • Pythonを使って簡単にデータを視覚化する

    世の中のことをもっと知るにはどうしたら良いだろうと思うときがある。世の中の多くの事柄はログやデータに落とされる。Googleなどの検索サイトは良い例だろう。さて、そのログやデータをどうすれば良いのか? 多くの場合、視覚化が有効な手段となる。 まずは身の回りの日常的なデータやログを何とかしたい。ただ、日常のデータを視覚化するのに数十行以上のコードは書きたくない。まるで息をするかのごとく自然に視覚化を行いたいのだ。そのためには1~2行、長くて数行で済ませることが必要だ。そこでPythonとmatplotlibを使う。加えて、IPythonがあればなお良い。IPythonの導入については以前のブログ記事であるIPythonの埋め込みプロットが素晴らしいを参考にして欲しい。 まずは事前にnumpyとmatplotlibをインポートしておく。できればscipyも。 >>> from numpy im

    Pythonを使って簡単にデータを視覚化する
  • 1