並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 680件

新着順 人気順

hadoopの検索結果321 - 360 件 / 680件

  • Google Cloud Professional Data Engineer Certifiedに合格した - yasuhisa's blog

    2021/02/23に受験しまして、合格しました。やったー。 前提: 受験前の私の状態 なぜ受験したか 試験のための準備 データエンジニアリングで頻出の話題をカバーする 個別コンポーネントの知識を取り込んでいく 権限 / セキュリティ / 監査回り 練習問題をひたすら解く 試験当日 これから 参考 前提: 受験前の私の状態 受験前もこの一年ほどデータエンジニアリング的な仕事はしていました。ただ、メインで使っているのもBigQueryくらいで、データに対する要求(データ量やリアルタイム性、可用性など)はそこまで厳しいものではなかったと思います。別に「仕事をサボって質を下げていた...」というわけではなく、過剰品質でデータを提供するより、他にもやるべきこと(データ分析など)はたくさんあったためです。 また、機械学習はある程度専門でやっていたため、一般的な知識(再現率とか正則化とか過学習とか)は

      Google Cloud Professional Data Engineer Certifiedに合格した - yasuhisa's blog
    • 【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮

      この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに Bilibiliは中国最大級の動画共有サイトです。私たちはBilibiliのbig data infrastructureチームとして、2021年にApache Iceberg1を使用したlake-warehouseプラットフォームを構築するためのプロジェクトを開始しました。このプラットフォームは、主にOLAP分析シナリオに焦点を当てています。 このプロジェクトの前は、当社のdata warehouseはApache Hive2をベース

        【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮
      • Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog

        前回の続きです。 EMR 5.36.1 から EMR 6.6.0 への更新について書きます。 EMR 5.36.1 から EMR 6.6.0 への更新 アプリケーション等 EMR 5.36.1 EMR 6.6.0 Tez 0.9.2 0.9.2 Hue 4.10.0 4.10.0 Hive 2.3.9 3.1.2 Hadoop 2.10.1 3.2.1 Presto 0.267 0.267 Trino N/A 367 Amazon Linux 2 2 このバージョンアップでは Hive と Hadoop のメジャーバージョンアップがあるので、Upgrade Amazon EMR Hive Metastore from 5.X to 6.X | AWS Big Data Blog のとおりに Hive メタストアをマイグレートしました。 その後、検証用 EMR cluster を作成してクエ

          Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog
        • Apache Beamでバルクデータローダを作っている話 - Qiita

          個人的に作っているETLツールの紹介をします。 分散処理可能なバルクデータローダ 最近、CSV等のテキストベースのファイルをBigQueryへデータロードする際にEmbulkを使っているのですが、短納期のデータ分析案件で、長時間掛かるデータロードが途中で失敗すると詰んでしまう場合があります。 Embulkのスループットを上げる方法がないか調べたところ、MapReduce Executorというプラグインがあるもののv0.9.18からサポートされなくなっています。 また、分散処理可能なバルクデータローダとしてApache Sqoopというのもありますが、Hadoop基盤を使ってRDBからHDFSやGoogle Cloud Storage等にデータロードができるものらしく今回の用途と合いません。 ちなみに、急ぎの時はApache Beamを使ってデータロード処理のコードを書いて、Google

            Apache Beamでバルクデータローダを作っている話 - Qiita
          • 本当は恐ろしい分散システムの話 | ドクセル

            スライド概要 分散システムのFault Injectionの話 NTTデータテクノロジーカンファレンス2017で発表する際に用いたプレゼン資料 https://oss.nttdata.com/hadoop/event/201710/index.html https://www.slideshare.net/kumagi/ss-81368169 と同一です。

              本当は恐ろしい分散システムの話 | ドクセル
            • ゼロからわかる!GCPのネットワークセキュリティの全体像 | 株式会社G-gen(旧 株式会社トップゲート)

              削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                ゼロからわかる!GCPのネットワークセキュリティの全体像 | 株式会社G-gen(旧 株式会社トップゲート)
              • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

                id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

                  AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
                • In Search of an Understandable Consensus Algorithm

                  In Search of an Understandable Consensus Algorithm (Extended Version) Diego Ongaro and John Ousterhout Stanford University Abstract Raft is a consensus algorithm for managing a replicated log. It produces a result equivalent to (multi-)Paxos, and it is as efficient as Paxos, but its structure is different from Paxos; this makes Raft more understandable than Paxos and also provides a better foundat

                  • Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介

                    著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい

                    • 本書について ―改訂にあたって:[増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ

                      『⁠[⁠増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ』より転載 本書は『ビッグデータを支える技術』の増補改訂版です。 「ビッグデータ」(⁠big data)という言葉が広く用いられるようになって数年が経ち,以前であれば簡単には手を出せないと思われた大規模なデータ処理も,少し勉強すれば誰にでも扱えるものになってきました。筆者が前著『Googleを支える技術』(⁠技術評論社,2008)の執筆にあたり「MapReduce」について学んでいた当時,それはどこか遠くの世界のように感じられたものですが,今ではもうありふれた技術になったのですから時代は変わったものです。 コンピュータの性能向上に伴い,ますます多くの物事がシステム化され,効率良く運用される時代になってきています。身近なところでは,たとえば「スマホで買い物をして,翌日には届けてもらえる」というとき,その背

                        本書について ―改訂にあたって:[増補改訂]ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ
                      • Apache Software Foundation retires slew of Hadoop-related projects

                        Apache Software Foundation retires slew of Hadoop-related projects Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over. It's been no secret lately that Apache Hadoop, once the poster child of big data, is past its prime. But since April 1st, the Apache

                          Apache Software Foundation retires slew of Hadoop-related projects
                        • データレイクとストリームデータ処理を理解する

                          はじめに 前回は、DX時代のデータ活用のトレンドと3大クラウドベンダのデータ活用サービスの概要を説明した。 今回のテーマであるIoTデバイスやWebアプリケーションが生成するストリームデータの処理は、従来型のデータウェアハウス(Data Warehouse)とは大きく異なる特性がある。そこで今回は、各社のクラウド・サービスを理解し、比較するための基礎知識として、以下の項目を説明する。 データウェアハウスとデータレイク(Data Lake)の違いバッチ処理とストリームデータ処理の違いデータ分析で知っておきたいこと データウェアハウス、データレイクとは何か データ活用と聞いてデータウェアハウスやビジネスインテリジェンスツールを思い浮かべる人も多いだろう。また近年はデータレイクという用語も登場している。特に、データウェアハウスとデータレイクは大きく異なるものなので、注意したい。 データウェアハウ

                            データレイクとストリームデータ処理を理解する
                          • 最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる - Qiita

                            はじめに DWHおよびETLで必要とされる大規模な処理がどういう背景と考え方で実現されているのか"超ざっくり"まとめます。 データ処理技術のトレンド まずはETL処理に関してです。DWHもそうですが、分散処理がキーワードとなります。 求められるBigdataへの対応 いわゆる3V(Variety,Velocity,Volume)で定義されることの多いBigdataの出現に伴い、それを分析処理するソフトウェアにはまず第一に「大量のデータに対する処理を現実的な時間内で終わらせること」が求められました。 分散処理フレームワークの台頭 大量のデータを効率的に処理させるための対応として、Hadoopと呼ばれるような処理技術が利用されるようになりました。 Hadoopは以下のような仕組みで大量データを効率的に処理することを実現しました。 「データを分割して多数のサーバーで処理」(Map) 「それぞれの

                              最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる - Qiita
                            • 【トップゲート主催】ゲーム業界様向けGCP活用のポイント〜Firebase / Firestore編〜 | 株式会社G-gen(旧 株式会社トップゲート)

                              削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                【トップゲート主催】ゲーム業界様向けGCP活用のポイント〜Firebase / Firestore編〜 | 株式会社G-gen(旧 株式会社トップゲート)
                              • HDFS Erasure Codingを大規模本番環境で運用するには LINEエンジニアによるトラブルシューティング

                                LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」の68回目のテーマは「Big Data Platform」。LINEのサイトリライアビリティエンジニアである内田早俊氏が、Hadoop3にアップグレードした際に起きたErasure Codingのトラブルシューティングについて共有しました。 関連資料はこちら。 2019年にクラスタをHadoop 3にアップグレード 内田早俊氏(以下、内田):LINEのData Platform室の内田です。本日は忙しい中ご参加いただき、ありがとうございます。 LINEでは10年近く大規模なHadoopクラスタを運用していますが、昨年(2019年)クラスタをHadoop 3にアップグレードしました。ディスク使用量を削減するためにHadoop 3で新しく追加されたHDFSのErasure Coding(EC)を、約1

                                  HDFS Erasure Codingを大規模本番環境で運用するには LINEエンジニアによるトラブルシューティング
                                • Indeed Tech Skills Explorer: Big Picture Tech Skill Trends - Indeed Hiring Lab

                                  Indeed Tech Skills Explorer: Big Picture Tech Skill Trends This report looks at the major trends in the tech skills market. This is the third of four parts of the Indeed Tech Skills Explorer – an interactive look at which tech skills are in demand and which tech jobs are using those skills. This report looks at the major trends in the tech skills market. For these reports, we searched for more tha

                                    Indeed Tech Skills Explorer: Big Picture Tech Skill Trends - Indeed Hiring Lab
                                  • Presto における Service Discovery の動作原理

                                    Presto を運用していると “No worker nodes available” というエラーに遭遇することがあります。これは coordinator が planning をする際に active な worker nodes が存在しないと起きるエラーなんですが、worker nodes に問題ではなく service discovery が上手く機能していなくて起きることがあります。 worker nodes が異常なのか service discovery が上手く機能していないのかを切り分けるには、Presto がどのように service discovery を実現しているかを理解している必要がありますが、よくわかってなかったので調べてみました。 環境は Amazon Elastic MapReduce (EMR) ではじめる Presto 入門と同じく、Presto 0

                                      Presto における Service Discovery の動作原理
                                    • 【簡単】Googleサイトの使い方!社内ポータルサイト作成で情報共有もスムーズに | 株式会社G-gen(旧 株式会社トップゲート)

                                      削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                        【簡単】Googleサイトの使い方!社内ポータルサイト作成で情報共有もスムーズに | 株式会社G-gen(旧 株式会社トップゲート)
                                      • Event Driven Architecture とは? Cloud Run と Eventarc を活用した Google Cloud (GCP)での実装例やデモンストレーションまで一挙紹介! | 株式会社G-gen(旧 株式会社トップゲート)

                                        削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                        • Google Cloud 認定 Professional Data Engineer 取りました - ぽ靴な缶

                                          やったー Google Cloud の主催する Google Cloud Innovators Gym Japan (G.I.G) というプログラムに参加して取りました。 Google Cloud を利用する企業を対象とした招待制のプログラムで、参加すると関連する Coursera コースへのアクセス、試験を受けるためのサポート、Google Cloud エンジニアの方によるハンズオンや質問できる機会が提供されます。 バッジ 以下の資格が対象。今回のプログラムは4月中頃に始まり、7月中頃までに Coursera のコースを終え合格報告をするスケジュール。お話を頂いて良い機会なのでチームの若者を誘って参加しました。 Professional Cloud Architect Professional Cloud Developer Professional Data Engineer poku

                                            Google Cloud 認定 Professional Data Engineer 取りました - ぽ靴な缶
                                          • AWS認定 Machine learning specialty 合格記 | フューチャー技術ブログ

                                            TIGの伊藤真彦です。 先日もう一人の伊藤さんがTerraform Associate合格記を書いてくれました。この記事に続いて資格の記事を書いてみようと思います。余談ですがこちらの伊藤さんとの区別がつくように自己紹介はフルネームで書いています。 私はAWSの資格を4つほど持っているのですが、今回はAWS認定 機械学習- 専門知識について紹介します。ちなみに機械学習の資格は実務経験0から2カ月ほど学習して合格しました。 前提知識0の人も対象になるような記事を目指して記載します。 この記事の目的AWS認定試験で要求される知識、学習法についてまとめます。 大まかな概要、各分野の具体的な内容を記載していきます。 目次 AWS 認定 機械学習– 専門知識とは 要求される知識 学習方法について まとめ AWS 認定 機械学習– 専門知識とはその名の通り、AI開発、データサイエンスを業務で行う人向けの

                                              AWS認定 Machine learning specialty 合格記 | フューチャー技術ブログ
                                            • HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた

                                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯(ヤフー内のスキル任命制度)の鯵坂(@ajis_ka)です。 ヤフーでは、およそ2年間の調査・検証期間を経てヤフーで利用している本番環境のHDFS(Hadoop Distributed FileSystem)をHDP(Hortonworks Data Platform)2.6系(Apache Hadoop 2.7.x相当)からApache Hadoop 3.3.0にメジャーバージョンアップし、HDFSの新機能であるRouter-based Federation(RBF)を導入しました。 本記事では、これまでの2年間で何をしてきたのかについて振り返っていきます。 バージョンアップの経緯 ヤフーでは、提

                                                HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
                                              • 週刊AWS – 2021/11/1週 | Amazon Web Services

                                                Amazon Web Services ブログ 週刊AWS – 2021/11/1週 みなさん、こんにちは。ソリューションアーキテクトの下佐粉です。 今週も週刊AWSをお届けします。 今月も残すところあと2か月になりました。いつもこの時期になるとre:Inventや、関連イベントの準備が社内でバタバタと動き出して、ああ年末が近づいて来たなあと感じています。 さて、re:Invent前の国内のイベントとしては、クラウドのセキュリティ・コンプライアンスの最新情報を学べる無料オンラインイベント AWS Security Roadshow Japan 2021が11月11日~12日に開催されます。牧島かれんデジタル大臣のゲスト講演の他、基調講演、金融トラック、テクニカルトラック、ハンズオン等充実した内容になっていますので、ご興味がある方はぜひご参加ください。 – AWS Security Road

                                                  週刊AWS – 2021/11/1週 | Amazon Web Services
                                                • Google Cloud (GCP)でAI・機械学習を活用してレコメンドエンジンを作ってみよう | 株式会社トップゲート

                                                  削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                    Google Cloud (GCP)でAI・機械学習を活用してレコメンドエンジンを作ってみよう | 株式会社トップゲート
                                                  • [レポート]エクサバイト規模のAWSストレージのイノベーション #STG221-L #reinvent | DevelopersIO

                                                    ストレージを使ってビジネスにアジリティを追加する考え方から、実践的なコスト最適化手法まで、事例と新機能のオンパレードセッションです。みんな動画を見るべき。 こんにちは、臼田です。 みなさん、re:Invent楽しんでますか?(挨拶 今回は下記セッションのレポートです。今日今すぐに役に立つ沢山のコスト最適化のナレッジなどもあるのでみんな動画を見るべき。 [STG221-L]AWS storage innovations at exabyte scale Data is the change agent driving digital transformation. The variety of data and workloads and the need for resiliency in shared data environments make storage choices crit

                                                      [レポート]エクサバイト規模のAWSストレージのイノベーション #STG221-L #reinvent | DevelopersIO
                                                    • OSSのセキュリティスキャナーTsunami(tsunami-security-scanner)をAmazon Linux 2で試してみた | DevelopersIO

                                                      OSSのセキュリティスキャナーTsunami(tsunami-security-scanner)をAmazon Linux 2で試してみた 先日知ったオープンソースソフトウェアのセキュリティスキャナー Tsunami(tsunami-security-scanner)をAmazon Linux 2で試してみました。 こんにちは、コカコーラ大好きカジです。 先日知ったオープンソースソフトウェアのセキュリティスキャナー Tsunami(tsunami-security-scanner)をAmazon Linux 2で試してみました。 Tsunami(tsunami-security-scanner)とは 詳細はTsunami: An extensible network scanning engine for detecting high severity vulnerabilities wi

                                                        OSSのセキュリティスキャナーTsunami(tsunami-security-scanner)をAmazon Linux 2で試してみた | DevelopersIO
                                                      • 簡単かつ高性能な統計モデル構築!TensorFlow Probability によるベイズモデリング入門 | 株式会社G-gen(旧 株式会社トップゲート)

                                                        削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                          簡単かつ高性能な統計モデル構築!TensorFlow Probability によるベイズモデリング入門 | 株式会社G-gen(旧 株式会社トップゲート)
                                                        • Cloud Spanner vs Cloud SQL | 株式会社G-gen(旧 株式会社トップゲート)

                                                          削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                          • Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services

                                                            Amazon Web Services ブログ Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 AWS 上でビッグデータの ETL ワークフローを実行している大企業は、多数の内部エンドユーザーにサービスを提供できるようなスケールで運用しており、何千もの同時パイプラインを実行しています。このことは、新しいフレームワークと、ビッグデータ処理フレームワークの最新のリリースに遅れずについていくため、ビッグデータプラットフォームを更新し、拡張する点での継続的なニーズと相まって、ビッグデータプラットフォームの管理を簡素化することと、ビッグデータアプリケーションへの容易なアクセスを促すことの両方を可能にする、効率的なアーキテクチャと組織構造を要求しています。 この投稿では、一元管理型のプラットフォームチームが

                                                              Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services
                                                            • Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1 | Amazon Web Services

                                                              Amazon Web Services ブログ Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1  このマルチポストシリーズのパート 1 では、プライマリおよび短期の Amazon Redshift クラスターの両方を使用して、スケーラブルな ETL (抽出、変換、ロード) と ELT (抽出、ロード、変換) データ処理パイプラインを構築するための設計のベストプラクティスについて説明します。また、Amazon Redshift Spectrum、Concurrency Scalingといった Amazon Redshift の主要な機能に関するユースケースや、最近開始したデータレイクエクスポートのサポートについても見ていきます。 このシリーズのパート 2、Amazon Redshift を使用したレイクハウスアーキ

                                                                Amazon Redshift を使用したレイクハウスアーキテクチャの ETL および ELT 設計パターン: パート 1 | Amazon Web Services
                                                              • OpenStack と OpenShift の関係って? - ts0818のブログ

                                                                OpenStack と OpenShift ってどんな関係なん?という情弱な私...どうもボクです。 というわけで、今回は、OpenStack と OpenShiftの関係について調べてみました。 レッツトライ~。 OpenStackって? 何はともあれ、Wikipediaさ~ん! OpenStackは、クラウドコンピューティングのためのオープンソース・フリーソフトウェアであり、クラウドの分類のIaaSサービスとして仮想マシンやその他のリソースを提供する。 OpenStack - Wikipedia ⇧ IaaS サービスなんですと。 IaaSって? IaaS(Infrastructure as a Service の略。インターネットを利用したコンピュータの利用形態である。IaaSでは、コンピュータシステムを構築および稼動させるための基盤(仮想マシンやネットワークなどのインフラ)そのもの

                                                                  OpenStack と OpenShift の関係って? - ts0818のブログ
                                                                • Migrating Apache Spark workloads from AWS EMR to Kubernetes

                                                                  IntroductionESG research found that 43% of respondents considering cloud as their primary deployment for Apache Spark. And it makes a lot of sense because the cloud provides scalability, reliability, availability, and massive economies of scale. Another strong selling point of cloud deployment is a low barrier of entry in the form of managed services. Each one of the ‘Big Three’ cloud providers co

                                                                    Migrating Apache Spark workloads from AWS EMR to Kubernetes
                                                                  • データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート ~データ基盤システム編~ | gihyo.jp

                                                                    「実践的データ基盤への処方箋」輪読会のレポートは、以下の記事に分けて掲載しています。 データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート 〜データ整備編〜(第1回) データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート ~データ基盤システム編~(今回) データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート 〜データ組織編〜(第3回) 2022年1月から2月にかけて、データエンジニアリング、データ活用の知見の共有を目的としたコミュニティdatatech-jpおよび株式会社風音屋の協力のもと「実践的データ基盤への処方箋」の輪読会がオンライン形式で開催されました。輪読会は3回に分けて開催され、合計9名の発表者と、多くの参加者が集まり、さまざまな議論が交わされました。本稿ではこの輪読会の第2回の様子をダイジェストで紹介します。 データ収集は試行錯誤

                                                                      データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート ~データ基盤システム編~ | gihyo.jp
                                                                    • MLOpsことはじめ ~実験管理導入と学習基盤の構築~ | フューチャー技術ブログ

                                                                      はじめにはじめまして、Strategic AI Group(以降SAIG)に在籍しています、2019年度入社の真鍋です。学生の頃よりクラウドやHadoop等、大規模分散システムの研究をしていました。その経験と私自身の希望もあり、SAIGでは主にインフラ担当として業務に取り組んでいます。 今回は私がAI分野のインフラに触れ、MLOpsを知り、SAIG全体で利用する学習基盤を構築するまでに得た知見を、一部ではありますが共有させていただければと思い筆を取りました。MLOpsについて興味を持たれていて、具体的な取り組みについて知りたいといった方に読んでいただければ幸いです。 概要本稿は下記の内容で構成しています。 MLOpsとは SAIGの課題 施策1:実験管理についての取り組み 施策2:SAIG学習基盤の構築 まとめと今後の展望 1. MLOpsとは私がアサインされたSAIGは、フューチャーの一

                                                                        MLOpsことはじめ ~実験管理導入と学習基盤の構築~ | フューチャー技術ブログ
                                                                      • Avro,SchemaRegistryことはじめ - Qiita

                                                                        はじめに 30才になったのを機にアウトプットを意識していこうと思います。 最初のテーマは地味ですが、ご興味あれば。 現在、自分は、Hadoop,Spark,Kafka,Fluentdなどを導入し、社内のログ基盤を整えようとしています。 Kafkaでシリアライズするには、Avro,SchemaRegistryを利用するのがメジャーであるが、 何も考えずにすぐ動くAvroのソースや一歩踏み込んだ説明がなかなか見つからず、なかなか理解できず苦しんだので、誰かの助けになればと思います。 SchemaRegistryはAvroについて理解できれば難しくないと思うので軽く触れる程度です。 また、コードはGitHubにあげてますので、参考までに。 なお、基本的に既に良質なものがあればリンクだけ張って、説明はそちらに譲るというスタンスでいきます。 Avroとは 1分で読めるので、Avro本家のOvervi

                                                                          Avro,SchemaRegistryことはじめ - Qiita
                                                                        • RedisとApache HBaseで高性能・高信頼性・高可用性なストレージを LINEアプリの大規模トラフィックを支えるストレージ

                                                                          2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこでLINE Z Part チーム シニアソフトウェアエンジニアのルカデテナ ハビエル アキラ 氏が、「LINEアプリにおける大規模トラフィックを支えるストレージ」について共有。前半はRedisとApache HBaseを使ったストレージについて紹介しました。 ルカデテナ ハビエル アキラ氏:ハビエル アキラ ルカデテナと申します。2017年からLINEのソフトウェアエンジニアとして働いています。今日は、LINEのメッセージングアプリケーションのトラフィック・インテンシブ・ストレージについてお話しします。 まずはメッセージングアプリケーションを紹介して、そのストレージの要件とApache HBaseでどうやってその

                                                                            RedisとApache HBaseで高性能・高信頼性・高可用性なストレージを LINEアプリの大規模トラフィックを支えるストレージ
                                                                          • 【万が一に備えよう】クラウドの高額請求が届いたときの対処法とは? | 株式会社G-gen(旧 株式会社トップゲート)

                                                                            削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                              【万が一に備えよう】クラウドの高額請求が届いたときの対処法とは? | 株式会社G-gen(旧 株式会社トップゲート)
                                                                            • Snowflake vs. BigQuery 選択ガイド

                                                                              ビジネスのニーズや目的に適したデータウェアハウスを選定することは、ビッグデータ戦略の重要な要素です。残念なことに、あまりにも多くの企業が、自社に最適なデータウェアハウスをどのように選択すれば良いかという問題に悩んでいます。 大方の予測では、データウェアハウスのプロジェクトの60~70%は失敗するとされています。。その理由は、コストや時間の見積もりが悪かったり、組織内の賛同が得られなかったり、最初から間違ったテクノロジーを選択していたりと、さまざまな理由があります。 しかし、データウェアハウス・プロジェクトが成功すれば、強力なROIを実現し、より鋭いデータドリブンなインサイトを提供することでビジネスを変革することができます。 Snowflake、Google BigQuery、Amazon Redshiftは、成熟した堅牢なクラウドベースのデータウェアハウスの巨人であり、何千もの顧客に利用さ

                                                                                Snowflake vs. BigQuery 選択ガイド
                                                                              • クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説! | 株式会社G-gen(旧 株式会社トップゲート)

                                                                                削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                                  クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説! | 株式会社G-gen(旧 株式会社トップゲート)
                                                                                • AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO

                                                                                  Terraformのテンプレート variablesの部分をお好みで変更してください。 # Terraform Setting terraform { required_version = "0.12.6" } # Provider provider "aws" { region = "ap-northeast-1" } # Kinesis Firehose resource "aws_kinesis_firehose_delivery_stream" "firehose_delivery_stream" { name = "${var.firehose_name}" destination = "extended_s3" extended_s3_configuration { bucket_arn = "${aws_s3_bucket.s3_bucket.arn}" buffer_int

                                                                                    AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO