タグ

dataに関するgumkamのブックマーク (3)

  • DeNA流データエンジニアリングの極意

    Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-nioke…

    DeNA流データエンジニアリングの極意
  • 情報学研究データリポジトリ ニコニコデータセット

    ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事文データ 記事ID,記事文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮

  • Pythonを使って簡単にデータを視覚化する

    世の中のことをもっと知るにはどうしたら良いだろうと思うときがある。世の中の多くの事柄はログやデータに落とされる。Googleなどの検索サイトは良い例だろう。さて、そのログやデータをどうすれば良いのか? 多くの場合、視覚化が有効な手段となる。 まずは身の回りの日常的なデータやログを何とかしたい。ただ、日常のデータを視覚化するのに数十行以上のコードは書きたくない。まるで息をするかのごとく自然に視覚化を行いたいのだ。そのためには1~2行、長くて数行で済ませることが必要だ。そこでPythonとmatplotlibを使う。加えて、IPythonがあればなお良い。IPythonの導入については以前のブログ記事であるIPythonの埋め込みプロットが素晴らしいを参考にして欲しい。 まずは事前にnumpyとmatplotlibをインポートしておく。できればscipyも。 >>> from numpy im

    Pythonを使って簡単にデータを視覚化する
  • 1