タグ

データに関するkuchitamaのブックマーク (17)

  • ここがすごいぞyugabyteDB!~OSS版CloudSpanner~ - RAKUS Developers Blog | ラクス エンジニアブログ

    こんにちは。インフラエンジニアの gumamon です! 近年、Kubernetes等の登場により、アプリケーションのスケールアウトはとても簡単になりました。対して、データベース(DB)のスケールアウトは依然として困難です。 「RDBMS」⇒ データの一貫性は保てるが、スケールアウトが難しい 「NoSQL」⇒ データの一貫性を保てないが、スケールアウトが容易 DBのスケールアウトを考えるとこの2択に行きつく、というのが今までの常識だったかと思いますが、 『どっちも!』が出来てしまう第3の選択肢が登場しました。 データの一貫性を保て、且つスケールアウト容易な『NewSQL』! 最近、NewSQLの一つである yugabyteDB の検証をする機会がありましたので、アーキテクチャと検証結果を紹介します。 目次 目次 ここがすごいぞ yugabyteDB! yugabyteDBのアーキテクチャ

    ここがすごいぞyugabyteDB!~OSS版CloudSpanner~ - RAKUS Developers Blog | ラクス エンジニアブログ
  • 冪等なデータ処理ジョブを書く - クックパッド開発者ブログ

    こんにちは、マーケティングサポート事業部データインテリジェンスグループの井上寛之(@inohiro)です。普段はマーケティングに使われるプライベートDMP(データマネジメントプラットフォーム)の開発を行っています。稿では、その過程で得られた冪等なデータ処理ジョブの書き方に関する工夫を紹介したいと思います。今回は、RDBMS上で SQL によるデータ処理を前提に紹介しますが、この考え方は他の言語や環境におけるデータ処理についても応用できるはずです。 まずクックパッドのDMPと、冪等なジョブについて簡単に説明し、ジョブを冪等にするポイントを挙げます。また、SQL バッチジョブフレームワークである bricolage を使った、冪等なジョブの実装例を示します。 クックパッドのDMPと冪等なジョブ クックパッドのプライベートDMPは、データウェアハウス(社内の巨大な分析用データベースで、クックパ

    冪等なデータ処理ジョブを書く - クックパッド開発者ブログ
  • DBマイグレーションを行う技術 - 発明のための再発明

    データベースのスキーマを変更するということはデータをいじる行為であり、最悪の場合データが消えます。 最悪の事態にはならなくとも、思わぬ場所に影響が起きたり、データの不整合が発生する恐怖と戦う必要が有ります。 テストや切り戻しを含めて計画し、大きな変更の場合にはダウンタイムまで考慮する必要があります。 そこで、RDBを対象にデータベースの変更を行う方法について書いていきます。 スキーマ変更 まずは、スキーマ変更について、 カラムを追加する 一番簡単で、影響も少ない変更です。 気をつけるのは、 ソースコードの変更よりも前にスキーマ変更を完了させる (長時間)ロックがかからない方法を選ぶ といったところでしょうか。 大抵の場合は、スキーマの変更とソースコードの変更の順番にさえ気をつければ問題は発生しません。 カラム名を変更する 「ALTER」でさくっと変えたくなりますが、ソースコードの変更が同時

    DBマイグレーションを行う技術 - 発明のための再発明
  • 優れたダッシュボードをデザインするための10のガイドライン | UX MILK

    Neilは、イギリスのAstraZenecaで働くUXデザイナーです。現在さまざまなUXデザインプロジェクトを率いています。 もしあなたがプロの自転車競技に詳しければ、「アシスト(Domestique)」という用語を聞いたことがあるでしょう。馴染みがない人に向けて説明すると、アシストとは自転車競技のチームにおける選手の役割を指します。「Domestique」はフランス語で「下僕」という意味です。 アシストの選手は、水のボトルをチームの車から集めてほかのチームメイトに渡すという役割を担っています。また、チームの車が近くにいないときに先頭選手の自転車が故障したら、自分の自転車や予備のタイヤを渡します。さらに、遅れているメンバーがいれば、先頭集団に追いつくまで彼らを牽引し、追いついたら自分はペースを落とします。このようにアシストの選手は無欲にひたすら奉仕し続けます。決してアシスト自身がレースに

    優れたダッシュボードをデザインするための10のガイドライン | UX MILK
  • エンジニアを魅了する次世代 BI ツール『Looker』を Quipper が導入した理由(わけ) - スタディサプリ Product Team Blog

    こんにちは、データグループのマネージャーをやっています beniyama と申します。 先の記事『プロダクトの「負債」を「機能」と呼び直す 〜A/Bテストを用いた"価値"の定量化〜』でも触れられていますが、データグループではデータ分析基盤の構築(参考資料)からデータ分析、あるいは学習データを活用した研究開発までスタディサプリのデータに関わることほとんど全てを担当しています。 プロダクトや事業 KPI の社内向けモニタリング環境の構築・整備も行なっているのですが、今回、既存の環境を刷新して Looker というまだ日ではほとんど無名?のツールを導入することにしましたのでその経緯をお話ししつつ、今後国内でもユーザーが増えていくといいなという願いを込めて1エンジニアとして興奮したポイントを書き連ねていこうと思います。 最初の1年間は DOMO を導入して運用 スタディサプリではもともと各種 K

    エンジニアを魅了する次世代 BI ツール『Looker』を Quipper が導入した理由(わけ) - スタディサプリ Product Team Blog
  • ダッシュボードで上手に情報を可視化するためのガイドライン

    JustinはUsabilityGeekの創始者であり、使いやすい記憶に残るオンライン体験の創出において15年以上もの実績があります。 システムが完全なものになるにつれ、定性的なデータや定量的なデータもまたさまざまな頻度・複雑さでを取得できるようになります。このような状況では、情報の可視化がさらに重要になります。 端的に言うと、情報の可視化(information visualisation)とは、抽象的なデータをユーザーが理解できるように可視化し、さらにデータ間の関係性を理解できるようにすることです。 デザイナーの役割と情報の可視化 デザイナーの役割は、ユーザーにとってわかりやすい方法でデータを表現することです。これには、課題や制約、データを表現するために利用できるスクリーンサイズという制限が伴います。 もしデザイナーがユーザーが理解しやすいデータを作成できないと、ユーザーがデータを利用

    ダッシュボードで上手に情報を可視化するためのガイドライン
  • スタートアップでも出来る分析基盤 - AppBrew Tech Blog

    こんにちは、遊撃エンジニア兼代表の深澤です。 最近はインフラからサーバーをメインにいじっています。昔はクライアントも書いていました。 弊社は、「再現性を持ってユーザーに刺さるプロダクトをつくる」ことを目指しチームビルディングをしています。 なので、創業からのてんやわんや(スタートアップは皆そうです)の中で、数字とちゃんと向き合う方法を模索してきました。 結果として、今現在どういった分析基盤で仕事をしているかに関して書きたいと思います。 ※注 あくまで、2017年初頭にサービスインしたLIPSの分析基盤を、分析について何も知らない人間が組んできたという話です。開始の技術選定からは1年以上経っているので、参考程度にお願いします。 技術的には枯れた内容しかやっていません。分析は、技術だけでなく、掛けるコストやオペレーションに組み込むレベルの話が出来てはじめて意味をなすものなので、そちらの話がメイ

    スタートアップでも出来る分析基盤 - AppBrew Tech Blog
    kuchitama
    kuchitama 2018/04/03
    スタートアップも規模感さまざま。うちでは、Redshiftはデータの規模に対して過剰感あったので、BigQueryにするつもりだし。でも、かなり参考になるな。いま、分析まわりの構築してるし、さっそく取り込みたい内容ある。
  • Kafka/Fluentd/Sparkを用いたデータ分析基盤の運用話 by ペンギン愛好家 さん - niconare

    新宿Geek Lounge#4 分析基盤Meetup ver2での発表資料です。 https://shinjuku-geek-lounge.connpass.com/event/83127/

    Kafka/Fluentd/Sparkを用いたデータ分析基盤の運用話 by ペンギン愛好家 さん - niconare
  • アクセス解析担当が必ずやってるGoogleAnalytics設定のまとめ【2018年版】 - Qiita

    この記事について 「GoogleAnalyticsの設定、どうしたらいいんだっけ...」と迷ったときのためのレファレンスです。 新規のサイトを立ち上げる時・GAの再設計がしたくなった時に参照してください。 のちのちアクセス解析しつつ改善していくために、できるだけ汎用的にデータを拾っておく 可能な限り、非コーダーができる作業で完結させる というのをテーマにまとめました。 STEP 0: GTM・GAのアカウントを取得 Googleのアカウントがあれば、驚くほど簡単に取得できます。 GoogleAnalyticsのアカウントを作る GoogleTagManagerのアカウントを作る 基的には、GoogleTagManager(以下、GTM)経由でGoogleAnalytics(以下、GA)を導入します。GTMの使い勝手がよいのはもちろん、GAをカスタマイズしたくなったときに、コーダーの手を借

    アクセス解析担当が必ずやってるGoogleAnalytics設定のまとめ【2018年版】 - Qiita
  • OSSのデータ可視化ツール「Metabase」が超使いやすい - Qiita

    Metabase、まじでイケてる。 1日で、Re:Dashから乗り換えました。 Metabaseとは OSSのデータ可視化ツール。Re:Dashとかと同じ類。 AWSとかに乗せて、誰もが見れるダッシュボードを作ったりする時に使うと、俺かっけーってなります。 スクリーンショット 実際に社内で運用している様子をモザイク付きでお見せします。 毎日みているダッシュボード。これの4倍くらいの数値見てる。 ダッシュボードの編集。マウスで簡単に位置や大きさの変更ができる。 クエリビルダー的なやつがあり、グルーピングとか超絶便利。SQL書けない人でも、単一テーブルとかだったら余裕かと。 グラフ化も簡単。 SQLでのクエリ編集画面。ちゃんと補完してくれる。 Metabaseの良い所 見た目が格好いい。 インストールが簡単。 openjdk-8-jdk入れて、jarファイル置くだけ。 豊富なデータソースに対応

    OSSのデータ可視化ツール「Metabase」が超使いやすい - Qiita
    kuchitama
    kuchitama 2018/01/04
    おお、Clojure製とな!試してみよう
  • メモリとスタックとヒープとプログラミング言語 | κeenのHappy Hacκing Blog

    κeenです。 今回の話は別にRustに限ったものではないのですが、よくRustを始めたばかりの人がスタックとヒープが分からないと言っているのをみかけるので少しメモリの話をしますね。 厳密な話というよりは雰囲気を掴んで欲しいという感じです。 メモリは配列 プログラム(プロセス)のメモリには実行するプログラム(機械語)やグローバル変数/定数、関数の引数やローカル変数、その他プログラムで使うデータ領域などを置きます。 プロセスに割り当てられるメモリというのは、1つの巨大なのっぺらな配列みたいなものです。サイズも決まってます。64bit OSなら2^64 byteです。 0 2^64 +--------------- ----+ | | | | | ~~ | | +--------------- ----+ これは仮想的なメモリなので実際の物理メモリに2^64 byteの配列がドンと確保される訳

    メモリとスタックとヒープとプログラミング言語 | κeenのHappy Hacκing Blog
  • 『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏

    データ分析基盤Night #2 - connpass 2017/04/26 データ分析基盤Night #2 #データ分析基盤Night - Togetterまとめ 前回第1回に引き続き抽選に当たったのでこの日参加してきました。 『 データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏 会場は株式会社FiNC様@有楽町。有楽町駅ビックカメラのすぐ隣、交通の便は超良い場所です。 会場内もとてもオシャレで綺麗なオフィスでした! 挨拶 ウェルネスタイム(軽いストレッチ) by FiNC FiNCの分析基盤の概要 発表資料 発表内容 freeeデータ分析基盤の全容 発表資料 特徴:他のサービスとどこが違うのか 構成:アーキテクチャ マーケティング 販売・サポート エンジニア ダッシュボード バッチ処理 辛み 展望・チャレンジ まとめ mercariのデータ分析

    『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏
    kuchitama
    kuchitama 2017/04/27
    各社それぞれで面白いなー。もっと、BigQueryに集中するかと思ってたけどなー
  • 実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog

    社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいです。しかし、機械学習のことに詳しく知らないディレクターやエンジニアにとっては、どのような機械学習の理解段階ならばタスクを任せられるかの判断をするのはなかなか困難です。そこで、このエントリでは機械学習を実タスクでやるまでに乗り越えるべき壁だと私が思っているものについて説明します。 第一の壁: 綺麗なデータで機械学習の問題を解ける 講義で扱われるような綺麗なデータを扱える 行列形式になっていて、欠損値や異常値もない 上記のデータを回帰や分類問題として解くことができる 実際に解く際にはライブラリを使って解いてよい 手法を評価する上で何を行なえばよいか(Preci

    実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog
  • オリラジ中田、転売撲滅の画期的システム発表! : オリエンタルラジオ 中田 公式ブログ

    転売屋撲滅宣言は多くの反響を呼んだ。 その中に 「高額転売しても買う客がいるということは値段の初期設定が間違ってるだけ」 「経済学的には需要と供給のバランスを転売屋が整えてるだけ」 「主催者はチケットを売り切ってるし、客はライブ見るためなら高い金払うし、何が問題なの?」 という意見も多くあることに驚いた。 転売を許さないお客さんと、転売を容認するお客さんの対談という記事も読み応えがあった。 ■転売問題とはどのような構図になっているのか考えた この問題はいわゆる「経済学的な需給バランスによる価格決定問題」と決定的に異なるところがあると思う。それは(販売者)と(購入者)という2つのプレーヤーだけの話ではないところだ。 販売者は(主催者)と(出演者)に分かれる。すなわち事務所とアーティスト。 購入者は(来場者)と(転売者)に分かれる。すなわちファンと転売屋。 4つのプレーヤーが関係する問題なのだ

    オリラジ中田、転売撲滅の画期的システム発表! : オリエンタルラジオ 中田 公式ブログ
  • VASILYにおけるBigQuery + Tableau活用例 - ZOZO TECH BLOG

    こんにちは! なんでもディープラーニングでやりたがる癖が抜けず、3ヶ月のディープラーニング禁止令を言い渡されていた後藤です。 記事ではVASILYで利用しているデータ分析の環境について紹介します。 VASILYではデータ分析が必要な場面で、BigQueryとTableauを組み合わせて利用することが多いため、これらの実際の活用例とTableauの選定理由について紹介したいと思います。 以前、CTOがデータ周りの環境の全体像を紹介しました。 tech.vasily.jp 社内ではBigQueryを中心にデータ周りの環境が構築されており、そこからデータ活用のあらゆる業務へつながります。 データの可視化と社内への共有は主にTableauを使っています。 まずは、BigQueryとTableauの説明から始めます。 BigQuery とは BigQueryとは、Googleが提供しているデータウ

    VASILYにおけるBigQuery + Tableau活用例 - ZOZO TECH BLOG
    kuchitama
    kuchitama 2017/04/17
    使い倒してるなー。 http://amzn.to/2oCMl3Q を読んだあとだと、活用されてる感がより感じられる
  • YouTubeやAmazonなどGoogle検索以外のデータ元からSEOで使えるキーワードを調べる方法

    SEOのステップをすごくざっくりと分けると以下のようになります。 1.対象とするキーワードを決める 2.キーワードの回答となるようなコンテンツを制作する 3.SEOの文脈を抑えた形でページに落としこむ 4.コンテンツを拡散する(おもにリンクをもらうため) SEOといえば、2や3にフォーカスを当てられていることが多いのですが、圧倒的に重要なのは1です。 1の段階で失敗していると、2~4を上手くやっても採算があいづらくなります。 競合が少なくて、かつ検索の需要があるところを探していくわけです。 需要があるというのは検索ボリュームが目安にされることが多く、実際に月間検索回数を基準にキーワードを選ぶことが少なくないです。 ただし、実際には、たとえ検索回数が少なすぎてGoogleのキーワードプランナーで月間検索回数の数字を表示してくれないものだったり、月間100回程度しかなかったとしても、上位にする

    YouTubeやAmazonなどGoogle検索以外のデータ元からSEOで使えるキーワードを調べる方法
    kuchitama
    kuchitama 2017/02/23
    キーワード探しは苦労するのでいいかもしれない
  • CQRSとイベントソーシングの使用法、または「CRUDに何か問題でも?」 | POSTD

    書き込みと読み込みのどちらに力を入れているかは、ストレージエンジンによって異なります。たとえば昔ながらのリレーショナルデータベースは、外部キーなどの制約を使ってデータの整合性をうまく制御できるようになっています。一方でNoSQLデータベースは、スループットとスケーラビリティを確保するために、そういった組み込みのガードレールをはずしてしまいました。データ層においても、どちらか一方に特化した最適化をすることがあります。たとえば、あらかじめ計算済みの値を保持しておけば、「一日あたりのサイト訪問者数」などの読み込み操作を効率よく行えるでしょう。ストレージソリューションのメーカーはどこも、「うちのプロダクトならあらゆるニーズを満たせます」などと自社製品の機能を自慢します。しかし実は、昔ながらのCRUDモデルに沿ってストレージエンジンを選んでデータ層を設計した時点で、さまざまな関心事の間で何らかの妥協

    CQRSとイベントソーシングの使用法、または「CRUDに何か問題でも?」 | POSTD
    kuchitama
    kuchitama 2016/12/06
    ふむふむ、 CQRSとかの考え方の背景がよくわかる
  • 1