タグ

analysisに関するy_uukiのブックマーク (5)

  • 流体近似法を用いた DCCP および RED のモデル化および性能評価

  • データ民主化の負の側面 - wyukawa's diary

    データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、 クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように

    データ民主化の負の側面 - wyukawa's diary
  • (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 2017/9/21(木) Apache Arrow、pandas、pandas2、そして最近の私の作業の大まかな方向性と視界が開けてきている未来に関して、これから一連のポストを書いていきます。このポストはその第一弾です。少々量があり、全体に技術的な色合いが濃くなっていますが、興味を持たれたなら読み進めていってください。 このポストでは、pandasの内部構造に関する主要な問題のいくつかと、それらに対して私が着実に進めてきた現実的な解決策の計画と構築について、できる限り簡潔に説明しようと思います。外から見

    (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita
  • カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog

    こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie(@chie8842)です。 好きなたべものは焼肉とみかんです。 現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。 今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。 はじめに - カラムナフォーマットとは カラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで

    カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog
  • DeNAの分析を支える分析基盤

    2. Copyright © DeNA Co.,Ltd. All Rights Reserved. ⾃⼰紹介 n  ⼭⽥ 憲晋 n  DeNA システム部 分析推進部 部⻑ n  略歴 1995年NECに⼊社。VerilogFPGA上にTCPフルスタック実装する等 ネットワーク関連の研究開発に従事。 2007年DeNAに⼊社。モバゲーの開発インフラ、ゲーム開発チームのマ ネージメント等を担当する。 ゲーム運営の中で分析の重要性を肌で感じ、2010年分析組織を⽴ち上 げる。 現在は、DeNA全体の分析基盤の構築と活⽤の推進統括をしている。 2

    DeNAの分析を支える分析基盤
  • 1