タグ

データに関するjkym99のブックマーク (13)

  • DATAFLUCT Tech Blog

    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

    DATAFLUCT Tech Blog
  • Google Analytics(UA)が使えなくなるのはどのくらいヤバくて、いつまでに何をしたら良いのかの話。 - フジイユウジ::ドットネット

    タイトルにも書いていますが、Google Analytics(UA)がもうすぐ使えなくなるんですよ。 GA4っていうのになるらしいんですが、自動で切り替わったりしないし、何もしてないと単に使えなくなるんですよ。知ってました? ※追記※2023年になって 自動的にGA4プロパティが作成されることになりました。しかし、むしろ手動ではないことで混乱しているようです。切り替えではなくGA4プロパティが追加されるんですが、そのデメリットについてはググって調べてね。 (UA)っていうのはGA4ではない、これまで使われてきたGoogle Analyticsだと思ってください。やや正確ではないのですが「GA4という最新版ではないGoogle Analyticsはすべてサービス終了される」くらいのイメージで捉えてもいいです。 業務で関わってる人たちからはGA4移行についての記事やツイートがたくさん流れてきま

    Google Analytics(UA)が使えなくなるのはどのくらいヤバくて、いつまでに何をしたら良いのかの話。 - フジイユウジ::ドットネット
  • RDBのデータモデリング・テーブル設計の際に参考にしている考え方と資料

    はじめに タイトルのとおり、RDBのデータモデリング・テーブル設計を行う際に参考にしている考え方と関連資料をまとめました。 P.S. なんと記事内でいくつか参考として挙げさせてもらっている増田さん・かとじゅんさん・奥野さん・そーだいさんからコメントいただくことができました。 当にありがとうございます。 前提 RDBを採用するのは事実を無駄なく正しく記録するため 正規化、トランザクション、制約とデータ整合性 基的には始めに理想として集合論・リレーショナルモデルに基づいて正規化を考え(論理設計)、パフォーマンスなどの現実問題に対して折り合いをつけていく(物理設計) 制約を最大限利用する cf: ↑P91〜 ↑P.29,41 ↑P56〜 ↑5章 ↑P347~ 情報とデータ データ:単なる事実の値→これを永続化して蓄えるものがRDB 情報:データから生み出される意味や目的のあるもの→RDB

    RDBのデータモデリング・テーブル設計の際に参考にしている考え方と資料
  • はじめに - アルゴリズムとデータ構造大全

    はじめに このドキュメントは,主に競技プログラミングで出題される問題を解く際に利用できるアルゴリズムやデータ構造をまとめたものです.特定の問題にはあまりフォーカスしないため,問題を解く際の考察の仕方等の内容はありません.詳しく,正確に,分かりやすく書いていこうと思っています. このドキュメントは執筆途中です. 想定する読者 C++を用いたプログラミングに慣れている方を読者として想定しており,C++言語の仕様や,文法にはあまり触れません.また,計算量という用語についても説明しません.ただし,償却計算量など,計算量の見積もりが複雑なものについては必要に応じて説明します. コードについて このドキュメントで登場するコードは,可読性向上のため,以下のようなコードがファイルの先頭に記述してあることを前提としています.また,適切な問題を用いてコードの検証がなされている場合は,コード周辺にのように,検証

  • 個人情報テストデータジェネレーター

    アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ(疑似データ)を生成するツールです。

    個人情報テストデータジェネレーター
  • AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方

    リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活

    AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方
  • マイクロサービスにおける決済トランザクション管理 | メルカリエンジニアリング

    この記事はMERPAY TECH OPENNESS MONTHの15日目の記事です。 こんにちは。メルペイのPayment PlatformチームでPaymentServiceの開発を担当するエンジニアの @foghost です。 メルペイではマイクロサービスのアーキテクチャで決済システムを開発しています。その中でPaymentServiceは決済トランザクション管理の基盤サービスとして、下位層のサービス(外部サービスも含め)が提供する各種決済手段を利用して、上位層のサービス(メルカリ、NFC,コード払いなど)に必要な決済フローを共通APIとして提供しています。PaymentServiceが提供する決済処理に複数のサービスを跨いでお金の動きを正確に管理する必要があるので、作り始めた頃から決済トランザクション管理を最も重要な課題として、サービスを跨いでもデータの整合性が取れる仕組みを作ってき

    マイクロサービスにおける決済トランザクション管理 | メルカリエンジニアリング
  • ディープラーニング実践入門 〜 Kerasライブラリで画像認識をはじめよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!

    ディープラーニング実践入門 ~ Kerasライブラリで画像認識をはじめよう! ディープラーニング(深層学習)に興味あるけど「なかなか時間がなくて」という方のために、コードを動かしながら、さくっと試して感触をつかんでもらえるように、解説します。 はじめまして。宮優一と申します。 最近なにかと話題の多いディープラーニング(深層学習、deep learning)。エンジニアHubの読者の方でも、興味ある人は多いのではないでしょうか。 しかし、ディープラーニングについて周りのエンジニアに聞いてみると、 「なんか難しそう」 「なかなか時間がなくて、どこから始めれば良いかも分からない」 「一回試してみたんだけど、初心者向けチュートリアル(MNISTなど)を動かして挫折しちゃったんだよね」 という声が聞こえてきます。 そこで! この記事では、そうした方を対象に、ディープラーニングをさくっと試して感触を

    ディープラーニング実践入門 〜 Kerasライブラリで画像認識をはじめよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!
  • 正しいデータは正しい設計に宿る - そーだいなるらくがき帳

    って話をbuilderscon 2018でします。 builderscon.io 当日利用する資料はこちら。 speakerdeck.com 私のセッションはbuildersconの最終セッション。 皆さん素晴らしいセッションが並ぶ中で選択肢に迷ってる方も居ると思います。 だから先に公開しておきますのでこれをご覧になって、他のセッションに行くというのも有りだと思います。 あと事前に去年のトークを見てくれると当日はより理解が深まると思います。 同じ話を2回しても皆さんにとって勿体無いのでリファクタリングの細かい前提の話は当日はしません。 soudai.hatenablog.com 動画はこちら。 www.youtube.com これを見て、面白そうだなって思ったらぜひ、遊びに来てください。 僕が知ってるRDB設計、そしてRDBの歩み方を全てお伝えします。 あなたの新しい道の一歩目をご用意しま

    正しいデータは正しい設計に宿る - そーだいなるらくがき帳
  • データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう! ビッグデータ、データサイエンス、人工知能など、統計学を主軸においた分野が隆盛ですが、統計学には高いハードルを感じる方も少なくないでしょう。k平均法を実際に手を動かしながら理解することで、データ分析を身近に感じることができます。 はじめまして、藤井健人(@studies)と申します。イタンジ株式会社でデータ基盤周りの運用を担当しています。 「ビッグデータ」「データサイエンス」「人工知能」といったバズワードに代表されるように、統計学を主軸においた分野の隆盛が日常となって久しいです。 しかし「統計学は学問的な要素があり難しい」という印象を持たれやすく、「実務に活かすのはハードルが高い、怖い」と感じる方も少なくないのではないでしょうか。 そういった方を対象に、今回は統計学の手法の一つであるk平均法を学んでいただ

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • 驚異の「断面図」の世界 | 探検コム

    戦前、子供向けの科学雑誌などで人気があった記事に「断面図」がありました。もちろん、地層の断面図や生物の断面図もあるんですが、圧倒的に人気だったのは大型船舶や航空機のものです。 戦争が身近だったこともあり、子供たちは空母や潜水艦の中身に大きな興味を持っていました。その延長で、ポンプやらドックやら大型機械や巨大施設の断面図も大量に作られていきました。 個人的には、これが「図解」文化につながり、日人の教育レベルを高めた可能性さえあると思っています。 そんなわけで、美しい断面図を一挙紹介します! なお、いずれもクリックで巨大画像がダウンロードできますが、データ量も大きいです。 「海の龍宮」ノルマンディー号 船員1345名、乗客2000人の乗船が可能。全船に4万個の電灯と770の電話線がついています。3の煙突のうち、実際に使われてるのは前と中央の2で、後ろは通風用。第6甲板まである巨大な船で

  • IoT時代におけるストリームデータ処理と急成長の Apache Flink

    2. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 2 自己紹介  所属 • Acroquest Technology Co., Ltd. • 「働きがいのある会社」(GPTW) 従業員25~99人部門 2年連続1位  主な業務分野 • テクニカルアーキテクト • SEPG • IoTサービス開発 • ビッグデータ処理プラットフォーム  最近の興味 • サーバーレス • DevOps • Elasticsearch 鈴木 貴典 Twitter : @takanorig Qiita : http://qiita.com/takanorig 3. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3 日お話する内容 #1 ビッグ

    IoT時代におけるストリームデータ処理と急成長の Apache Flink
  • Web屋だった俺が新規事業でリアルビジネスを始めたときにしたことの備忘録 〜市場調査編〜 - 制作と広告とお酒と私

    全国の「これからリアルビジネスを始めようとしているWeb制作・代理店」のみなさま、こんにちは! 今日はそんなリアルのビジネスを愛して震えが止まらないみなさまへお届けします。 わかってる!需要がないのはわかってるから!!! 新しい事業を始めるときにやったことの備忘録 Web屋をやってると、リアルなビジネスをやるときって結構つまづくんです。 そりゃあもう、ね。お金じゃぶじゃぶ使いました。 今期もまたいろんなところでいろんなことを始めようとしてまして、 身の回りの人もそんな感じの人が多いので一緒に話をしていることをまとめてみる。 全体の市場規模とかシェアとか知っとくほうがいい 「どれくらい売れるか?」なんてのは新規事業のときは分からないです。 これまでやってきたことの延長やクロスセル・アップセルならリストもあるでしょうが、 ちょっと業態が変わるとそのあたりのリストが無いのがつらいですね。 とは言

    Web屋だった俺が新規事業でリアルビジネスを始めたときにしたことの備忘録 〜市場調査編〜 - 制作と広告とお酒と私
  • 1