タグ

dataに関するnntsuguのブックマーク (9)

  • Redisの大量レコードを(ほぼ)全てexportする

    こんにちは。auスマートパス開発部の子安です。 最近すっかり寒くなりましたね。冬といえばコタツです。そしてコタツといえば双六。双六 -> サイコロ -> Redis。 ・・・はい、やっとたどり着きました。今回はRedisの話です。 全てのレコードを吐き出したい今やKVSの代名詞と言えるほど使われているRedisですが、一つ困ったことがあります。 というのも、レコードを全てダンプするようなコマンドがないのです! みなさんどうしていますか? 素直なやり方最初に思いつくのは、KEYSしてMGETかもしれません。 # export_by_keys.py r = redis.StrictRedis(REDIS_HOST) res_keys = r.keys() # KEYS if res_keys: res_mget = r.mget(res_keys) # MGET for key, val in

  • Mackerelを支える時系列データベース技術 - ゆううきブログ

    【追記 2018/01/06】現在Mackerelは、時系列データベースという概念をクラウドの技で再構築する - ゆううきブログの時系列データベース実装へ移行しています。 サーバモニタリングサービス Mackerel で採用している時系列データベース Graphite を用いたシステムの構築と運用事情を紹介します。Graphiteについては、プロビジョニングやアプリケーションからの使い方、Graphite自体のモニタリングなど様々なトピックがありますが、特に大規模ならではのトピックとして、Graphiteの内部アーキテクチャ、パフォーマンスチューニングおよびクラスタ構成についての知見を書きます。 背景 Graphiteシステム概観 データ構造とアーキテクチャ whisperのデータ構造 carbon-cacheのアーキテクチャ パフォーマンス特性 パフォーマンスチューニング ミドルウェアレ

    Mackerelを支える時系列データベース技術 - ゆううきブログ
  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
    nntsugu
    nntsugu 2015/02/17
    ゲキアツ
  • 50 great data viz articles of 2014 - Visualoop

  • 面グラフによる年収分布図

    誰もが関心を持つ年収分布ですが,官庁統計では,おおむね100万円刻みの分布が示されています。200万円台は何人,300万円台は何人,・・・1500万円以上は何人,というデータです。 これをグラフ化するとなると,各階級が全体に占める割合(%)を出し,それらをつないだ折れ線を描くのが普通でしょう。これがいわゆる,年収分布曲線です。 しかし,多くの属性の分布を比較しようという場合,何もの曲線を描くことになります。たとえば,20~50代の5歳刻みの年収分布を比べる場合,8の曲線を盛り込むことになり,非常に見づらくなります。グチャグチャです。 私は,この難点をクリアする技法として,面グラフによる表現を思いつきました。いくつかの事例を見ていただきましょう。まずは,男性有業者の年収分布の変化図です。 どうでしょう。年齢層ごとの年収分布を上から俯瞰する図法です。「失われた20年」と形容される,90年代

    面グラフによる年収分布図
  • たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ - 渋谷駅前で働くデータサイエンティストのブログ

    id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。 データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ 受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事だと思うんですが、一方で仮に金を取ったとしても引き受けてはいけない案件というのもよくあるものです。 ということで、便乗して「たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ」とか僕がこれまで経験してきた様々な現場and/or案件での事例を踏まえて、適当に吹聴してみようと思います。 なお、「前処理が煩雑」とか「DB整備が貧弱でCSVでデータをやり取りしなければならない」というような構造的な問題点は別物なので、今回は割愛しましたごめんなさい。 (※これは他所の様々な現場での話を聞き取ってまとめた話であり、現職場の話ではありません!

    たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ - 渋谷駅前で働くデータサイエンティストのブログ
  • データ分析というお仕事のこれまでとこれから(HCMPL2014)

    第6回 統計・機械学習若手シンポジウムの公演で使用したユーザーサイド情報検索システムについてのスライドです。 https://sites.google.com/view/statsmlsymposium21/ Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? (SDM 2022) https://arxiv.org/abs/2105.12353 Retrieving Black-box Optimal Images from External Databases (WSDM 2022) https://arxiv.org/abs/2112.14921

    データ分析というお仕事のこれまでとこれから(HCMPL2014)
    nntsugu
    nntsugu 2014/07/16
  • (イベント)データサイエンティストサミット2014に登壇します。 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保管、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 データサイエンティストサミット2014 トレジャーデータは 2014/06/27 開催のデータサイエンティストサミットで私,チーフデータサイエンティストの井上が登壇することになりました。プログラム でお時間を確認の上,ぜひとも私のセッションにお越し下さい。 ブログを読んでいる方に,少しだけ発表内容をお知らせします。 今回は分野も業種も多種多様な方々が来ることを想定して,純粋なデータサイエンスの話ではなく,データもツールも何もないところからどのように分析を始めて行けば良いのか,トレジャーデータ流のデータ分析の始め方をご提案します。 分析に関わる全ての方に分析に関する悩みに共感を得て頂き,発表内容を持って一人でも多くの方が分析を(あわよくばトレジャーデータを使って)楽に始められるなって

    (イベント)データサイエンティストサミット2014に登壇します。 - トレジャーデータ(Treasure Data)ブログ
    nntsugu
    nntsugu 2014/06/26
    このページ見るだけで、参加したくなる(もう満席でした)
  • Grafana: The open observability platform | Grafana Labs

    Solutions All end-to-end solutions Opinionated solutions that help you get there easier and faster

    Grafana: The open observability platform | Grafana Labs
  • 1