並び順

ブックマーク数

期間指定

  • から
  • まで

441 - 480 件 / 698件

新着順 人気順

hadoopの検索結果441 - 480 件 / 698件

  • [レポート] 『Data Engineering Study #23 Data orchestration 特集』 #DataEngineeringStudy | DevelopersIO

    アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームの しんや です。 データ分析に於いて、「データオーケストレーション(Data orchestration)」という分野、カテゴリが存在します。端的に言うと「サイロ化されたデータを複数のストレージから一元化されたリポジトリに移動させ、そこで結合、クリーニング、エンリッチ化し、アクティブ化(ビジネス・インテリジェンス・ツールでのレポート作成など)するプロセス」(端的じゃなかった...) という定義となるのですが、2024年03月05日(火)に開催された『Data Engineering Study #23』にてこの「データオーケストレーション(Data orchestration)」を特集するということでイベントに参加(オンライン視聴)しました。 当エントリでは、その参加(視聴)内容についてざっくりではありますがレポ

      [レポート] 『Data Engineering Study #23 Data orchestration 特集』 #DataEngineeringStudy | DevelopersIO
    • Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3 | Amazon Web Services

      AWS Big Data Blog Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3 June 2023: This post was reviewed and updated for accuracy. Customers are increasingly building data lakes to store data at massive scale in the cloud. It’s common to use distributed computing engines, cloud-native databases, and data warehouses when you want to process and analyze your d

        Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3 | Amazon Web Services
      • PyAirbyteで始める簡単Data Injest Pipeline

        はじめに PyAirbyteがリリースされました。(2024/03/16時点ではBeta版なのでご注意を) PyAirbyteはExtractのコネクタ部分をPythonのライブラリとして提供してPandasに格納するという機能を提供しているらしい。 つまり、BigQueryのクライアントと合わせればExtractとLoadの部分を過疎結合にしつつ、スケジューラーでPythonを呼び出すだけのシンプルなData Injest Pipelineを作ることが可能なのでは!?ということで検証します。 個人的に考えるData Injestツールの抱える課題点 FivetranのようなSaaSを使い始める際は規約確認や、契約がとても面倒 Airbyteは契約関連の面倒な部分は無いが、運用工数が大きすぎる worker, sever, temporal, api, dbなどなど(ちゃんと拡張性を考えて

          PyAirbyteで始める簡単Data Injest Pipeline
        • ETL and ELT design patterns for lake house architecture using Amazon Redshift: Part 1 | Amazon Web Services

          AWS Big Data Blog ETL and ELT design patterns for lake house architecture using Amazon Redshift: Part 1 New: Read Amazon Redshift continues its price-performance leadership to learn what analytic workload trends we’re seeing from Amazon Redshift customers, new capabilities we have launched to improve Redshift’s price-performance, and the results from the latest benchmarks. Part 1 of this multi-pos

            ETL and ELT design patterns for lake house architecture using Amazon Redshift: Part 1 | Amazon Web Services
          • 経営戦略と現場作業がリアルタイムに結びつく 大規模アジャイル管理ツール「Jira Align」が叶えること

            アトラシアンがグローバルに展開している「チーム」をテーマとしたイベント「Atlassian TEAM TOUR Tokyo 2021」において、シニアソリューションエンジニアのウォーレン・ジョーンズ氏が、大規模アジャイル管理ツール「Jira Align」を使って、DX(デジタルトランスフォーメーション)の成果を経営管理レベルで見える化する方法を、デモを交えて紹介しました。 「Jira Align」が目指すこと ウォーレン・ジョーンズ氏:ご参加いただきありがとうございます。今日は「Jira Align」のデモンストレーションに時間の大半を費やすつもりですが、最初に、本製品が構築されるに至った、課題について触れます。 私たちはこれまで大手の戦略的な顧客と話をしてきました。その中で、企業はアジャイルやデジタルトランスフォーメーション、ITのモダン化に多額の投資を行ったものの、望ましい結果を得るの

              経営戦略と現場作業がリアルタイムに結びつく 大規模アジャイル管理ツール「Jira Align」が叶えること 
            • ムード研究の最前線!ネットを通じて気分を数値化

              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部の藤井・木田・宮原・坪内です。 ここ数年取り組んでいる「ムード推定」の最新の研究成果ならびに社内での活用事例を紹介いたします。ムード推定とは、ウェブ検索などインターネット上の行動履歴から人々の気分(ムード)を推測し、数値化して表せないだろうかという研究です。 (※この記事で紹介するムードに関する研究開発は、プライバシーポリシーの範囲内で取得したデータを用いて、個人を特定できない形で行っています) はじめに サイエンス統括本部の藤井です。IoTやスマートスピーカーなど、ちょっとだけ未来のプロダクトやサービスを担当しています。その中でもここ数年取り組んでいる「ムード推定」の最新の研究成果ならびに社内での活

                ムード研究の最前線!ネットを通じて気分を数値化
              • オープンソースソフトウェアへの無償サポート求める企業に開発者が不快感 | 財経新聞

                Anonymous Coward曰く、 あなたがフィリップスのスマートライトやiPhoneを購入した場合、その製品に必要なコードを書いた人には適切な賃金が支払われていると考えるのが自然だろう。実際、製品のソフトウェアを直接の作成者には賃金が支払われているが、そこで使われているコードの大半は、「オープンソース」プロジェクトで提供されるコードに依存している。 しかし、何百万人もの人々が使用するオープンソースソフトウェアが、ボランティアや特定の人物にによって維持されていることもある。このことは、時に大きなトラブルを生む可能性がある。その例の一つが、2014年に数百万人が利用しているOpenSSLで発生したHeartbleedバグだ。OpenSSLのライブラリは単一のフルタイムで働く開発者によって支えられてきた。 ほかにも開発者がプロジェクトに飽きて開発を放棄することもある。無償で働くプログラマー

                  オープンソースソフトウェアへの無償サポート求める企業に開発者が不快感 | 財経新聞
                • 分断されたデータをひとつのデータプラットフォームに統合 LINEのIUに立ちはだかる3つの問題

                  2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで奥田輔氏が、LINEのデータをひとつにまとめ上げてデータプラットフォームを作り上げた経緯について共有しました。前半はデータプラットフォームを作り上げるための課題について。 本セッションがどのような人に役立つのか 奥田輔氏:LINE株式会社 Data Engineeringセンター、Data Platform室の奥田輔と申します。 このセッションでは「分断されてしまったデータを2,000台を超えるひとつのデータプラットフォームに統合した話」と題して、LINEにおけるデータプラットフォームがかつて抱えていたデータの分断という課題、それがどのようなものであったか、そしてその課題をどのように解決したかを紹介します。

                    分断されたデータをひとつのデータプラットフォームに統合 LINEのIUに立ちはだかる3つの問題
                  • 週刊Railsウォッチ: Bundler自身のバージョンロック機能、gem署名メカニズムの提案ほか(20220216後編)|TechRacho by BPS株式会社

                    週刊Railsウォッチについて 各記事冒頭には🔗でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 お気づきの点がありましたら@hachi8833までメンションをいただければ確認・対応いたします🙏 TechRachoではRubyやRailsなどの最新情報記事を平日に公開しています。TechRacho記事をいち早くお読みになりたい方はTwitterにて@techrachoのフォローをお願いします。また、タグやカテゴリごとにRSSフィードを購読することもできます(例:週刊Railsウォッチタグ) 🔗Ruby 🔗 提案: gemに署名するメカニズム(Ruby Weeklyより) 元記事: rfcs/0000-introduce-a-new-signi

                      週刊Railsウォッチ: Bundler自身のバージョンロック機能、gem署名メカニズムの提案ほか(20220216後編)|TechRacho by BPS株式会社
                    • AWS DataSync(シンプルかつ高速なオンラインデータ転送)| AWS

                      AWS DataSync は、オンプレミスと AWS ストレージサービス間のデータ移動を自動化して加速化する安全なオンラインサービスです。DataSync は、Network File System (NFS) 共有、Server Message Block (SMB) 共有、Hadoop Distributed File System (HDFS)、セルフマネージドオブジェクトストレージ、AWS Snowcone、Amazon Simple Storage Service (Amazon S3) バケット、Amazon Elastic File System (Amazon EFS) ファイルシステム、Amazon FSx for Windows File Server ファイルシステム、Amazon FSx for Lustre ファイルシステム、Amazon FSz for Open

                        AWS DataSync(シンプルかつ高速なオンラインデータ転送)| AWS
                      • PySparkをTreasure Dataと使う|Kai Sasaki

                        この記事はArm Treasure Data Advent Calendar 6日目の記事です。 データサイエンスを行う上でPythonはデファクトスタンダードとなっているプログラミング言語です。多くのデータサイエンティストはPythonを通して様々なライブラリ、データソース、フレームワークを利用して日々の仕事に取り組んでいます。そのようなニーズを満たすため分散処理基盤、SaaSの多くがPythonでアクセス可能な機能を提供しています。Pythonはデータサイエンティストが大規模な分散処理基盤を利用する上での共通言語の役割を果たすようになってきました。 PySparkもそのようなインタフェースのひとつで、ユーザはPythonを使ってSparkの分散処理リソースを利用することができます。PySpark自体はApache Sparkのコミュニティからリリースされているライブラリですが、今回はこ

                          PySparkをTreasure Dataと使う|Kai Sasaki
                        • "the most popular OSS data projects"を眺めてみる(1位〜10位)

                          ※具体的なアンケートの質問は不明? この記事 ↑の上位20製品について、簡単に調べてみました。 私がよく知らない製品(Flyteとか)、みんな知っているだろう製品(Sparkとか)は記載薄めです。 なお、私の知識は 知っている Apache Airflow, Trino, Prefect, Apache Spark, Amundsen, Apache Flink, Apache Kafka,Apache Duid, pandas 名前だけ知っている dbt, Apache Pinot, Apache SuperSet, Great Expectations, Dask, Apache Arrow, Apache Gobblin 知らない Dagster, Flyte, RudderStack, Ray な感じです。 目次 dbt Apache Airflow Apache Superset

                            "the most popular OSS data projects"を眺めてみる(1位〜10位)
                          • 【DeNA/PayPay/マネーフォワード】波乱万丈伝から学ぶ!成長企業におけるデータマネジメントの勘所~大規模データ分析基盤の変遷~ レポート|よしむら@データマネジメント担当

                            ペタバイト、30プロダクトを超えて成長を続けるデータ基盤の歴史発表者株式会社ディー・エヌ・エー 長谷川 了示 発表資料(参加&アンケート回答者のみ) 概要DeNAの事業紹介1999年にネットオークションの会社として始まって、現在はエンターテイメント領域と社会課題領域を行っている。 ビッターズ懐かしい… DeNAデータ基盤の歴史データ基盤が生まれる前 データ基盤が「データ基盤」と呼ばれる以前の世界でも、データをためたデータベースとデータ活用を行いプロダクトを改善することは行われていた。 専門組織は存在せず開発エンジニアが行っていた。 データ基盤の勃興 2010年ごろ、モバイルゲームの大ヒットに伴い、アナリストと分析基盤エンジニアが一体となった組織が作られた。 その時はオンプレミスのHadoopで運用されていた。 ゲーム事業の中にデータエンジニアとデータアナリストを抱えていた。 データ基盤の浸

                              【DeNA/PayPay/マネーフォワード】波乱万丈伝から学ぶ!成長企業におけるデータマネジメントの勘所~大規模データ分析基盤の変遷~ レポート|よしむら@データマネジメント担当
                            • デジタルトランスフォーメーション時代の基幹系システム、その要件:第1回 | IT Leaders

                              IT Leaders トップ > テクノロジー一覧 > ERP/SCM > 「2025年の崖」の先にある基幹系システムの未来 > デジタルトランスフォーメーション時代の基幹系システム、その要件:第1回 ERP/SCM ERP/SCM記事一覧へ [「2025年の崖」の先にある基幹系システムの未来] デジタルトランスフォーメーション時代の基幹系システム、その要件:第1回 2019年10月7日(月)磯谷 元伸(NTTデータ グローバルソリューションズ 代表取締役社長) リスト 連載「『2025年の崖』に立ち向かうERP刷新プロジェクトの勘どころ」では、グローバル経営を進める日本企業が抱える課題に着目し、老朽化し個別最適化した基幹系システムをどのように刷新すればよいかについて解説した。今回はその続編=「2025年の崖のその先」として、既存システムとの違い、クラウドで稼働する基幹系システムの価値など

                                デジタルトランスフォーメーション時代の基幹系システム、その要件:第1回 | IT Leaders
                              • Snowflakeプラットフォームが支える6ワークロード(5) データレイクの過去と現在、そして未来

                                DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部 プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木 洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。 解説者:クラスメソッド株式会社 データアナリティクス事業本部 プリセールスアーキテクト 甲木 洋介氏 Twitter:@yokatsuki はじめに デー

                                  Snowflakeプラットフォームが支える6ワークロード(5) データレイクの過去と現在、そして未来
                                • S3 Inventory + Athena によるプレフィックスレベルコスト分析 ~S3 のコストをスリムに保つために~ - Gunosy Tech Blog

                                  プロダクト開発部 Ads チームの yamaYu です。最近体重と筋肉量をコントロールしたい願望があり、まずは可視化ということで体組成計を買いました。まだ全然成果は上がっていないですが、現状を把握できて良い感じです。 今回の記事ですが、最近取り組んだ S3 のコスト削減の施策において、S3 Inventory がコストの可視化の文脈で良い感じだったのでその話について書いていきます。 最終的に ↓ のような感じでプレフィックス別にコストを分析できるようにしました。 プレフィックス別の S3 のコストの例 課題感 S3 のストレージ使用量を把握するための選択肢 AWS CLI S3 Storage Lens S3 Inventory S3 Inventory で使用量を可視化する S3 Inventory を設定する Athena と連携する SQL を書いて分析する まとめ 課題感 Ads

                                    S3 Inventory + Athena によるプレフィックスレベルコスト分析 ~S3 のコストをスリムに保つために~ - Gunosy Tech Blog
                                  • 企画から分析まで、ほぼ毎日デプロイ LINEのAd Network & Performance 開発室では1から100まですべて担当できる

                                    LINEでは、コミュニケーションアプリ「LINE」を軸に、広告、金融、AI、エンタメ・コンテンツ系サービスなど多様な事業を展開。それらのサービスの中でも、法人向け/開発者向けサービスの開発を担うエンジニアが、日々の業務内容や開発体制、働く環境などについて紹介しました。樋村隆弘氏は、Ad Network & Performance 開発室での開発手法について話しました。 LINE広告ネットワークについて紹介 樋村隆弘氏:では、Ad Network & Performance開発室の樋村から、私たちの部署について紹介いたします。よろしくお願いします。 最初に私の自己紹介からさせてください。私は、LINE株式会社Ad Network & Performance開発室の樋村と申します。もともとは大学時代に理論物理をやっていまして、その後、新卒でISPに入りまして、クラウドサービスの開発をしていまし

                                      企画から分析まで、ほぼ毎日デプロイ LINEのAd Network & Performance 開発室では1から100まですべて担当できる
                                    • データレイクとは?メリットなどをわかりやすく解説

                                      デジタル世界は年を追うごとに規模が2倍に拡大しております。そのデータの最大90%は非構造化データまたは半構造化データであることから、そのようなデータをすべて格納し、かつ迅速に処理する能力を維持するという2つの課題が生じています。本コンテンツではデータレイクの活用事例やメリットを解説いたします。 データレイクとは?データレイクは、わかりやすく定義すると、多数のソースからのビッグデータを元のままの多様な形式で保持する中央ストレージリポジトリのことです。構造化データ、半構造化データ、非構造化データを格納できるので、将来の使用のためにデータをより柔軟な形式に保持できます。データレイクは、データを格納する際に識別子とメタデータタグを関連付けることで、検索を高速化します。 Pentaho社CTOのJames Dixon氏が最初に使用した「データレイク」という用語は、データレイク内のデータの臨時的な性質

                                        データレイクとは?メリットなどをわかりやすく解説
                                      • データサイエンス系の職種の違いを理解しよう(日経ビジネス) - Yahoo!ニュース

                                        こんにちは。フランス発の機械学習プラットフォーム、Dataiku(データイク)という会社で欧州企業のDX(デジタルトランスフォーメーション)を支援している宮崎です。日本でAI(人工知能)など先端技術の教育を展開するzero to one(仙台市)のリサーチ担当もしています。 【図解】データサイエンス系職種別・年間基本給の比較 本連載ではこれまでデータサイエンス系の職探しの仕方や、バズワードの整理について書いてきました。5回目となる今回は、データサイエンスに関わる様々な職種の違いについて説明したいと思います。 まず、データドリブンな企業の典型的な業務フローを考えてみましょう。 例えばAirbnbやBooking.comのような、ホテルを予約できるウェブサイトを運営する会社を想像してみてください。仮に「BulletTrip」と名付けましょう。 BulletTrip社では様々なデータを集めていま

                                          データサイエンス系の職種の違いを理解しよう(日経ビジネス) - Yahoo!ニュース
                                        • 粉雪~♪ 美しい雪の結晶(Snowflake)の虜になった話 - インテージテクノスフィア技術ブログ

                                          こんにちは。インテージテクノスフィア技術ブログ担当アイダです。今回の投稿は冬にふさわしい投稿です。リサーチテクノロジー本部のKさんは現在インテージの基幹システム担当なのですが、今回導入するDWH「Snowflake」について投稿いただきました。snowflake推しの熱い投稿をどうぞ! 「Snowflake」って? 普通のDWHと何が違うの? アーキテクチャ 3.ストレージレイヤー 2.コンピュートレイヤー ローカルキャッシュ スケールアップ/ダウン・スケールアウト/イン 自動レジューム/サスペンド 1つのDBに対し複数VWからアクセス 1.クラウドサービスレイヤー ワタシのお気に入り機能トップ5! 第5位 Caching 第4位 Zero Management 第3位 クエリプロファイル 第2位 Zero-Copy Cloning 第1位 Time Travel 未来はどうなる? 「Sn

                                            粉雪~♪ 美しい雪の結晶(Snowflake)の虜になった話 - インテージテクノスフィア技術ブログ
                                          • Book of News - Ignite 2019

                                            B O O K O F N E W S Microsoft Ignite 2019 Orlando, November 4 – 8, 2019 | Foreword by Frank Shaw 9 Section 1 Azure 10 Chapter 1 Azure Infrastructure 11 Item 1.1.1 Azure Arc: Extended Azure management and security to any infrastructure Item 1.1.2 Azure Data Services Preview: Run Azure data services anywhere Item 1.1.3 Azure Da v4 and Das v4 series virtual machines Item 1.1.4 Serial Console for Azur

                                            • GitHub - juicedata/juicefs: JuiceFS is a distributed POSIX file system built on top of Redis and S3.

                                              JuiceFS is a high-performance POSIX file system released under Apache License 2.0, particularly designed for the cloud-native environment. The data, stored via JuiceFS, will be persisted in Object Storage (e.g. Amazon S3), and the corresponding metadata can be persisted in various compatible database engines such as Redis, MySQL, and TiKV based on the scenarios and requirements. With JuiceFS, mass

                                                GitHub - juicedata/juicefs: JuiceFS is a distributed POSIX file system built on top of Redis and S3.
                                              • 【クラウドセキュリティ対策比較】GCP、AWS、Azureを様々な観点から比べてみた | 株式会社トップゲート

                                                削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                  【クラウドセキュリティ対策比較】GCP、AWS、Azureを様々な観点から比べてみた | 株式会社トップゲート
                                                • 「障害に強い」「速い」「大容量」を実現 サイバーエージェント自作ストレージのメリット・デメリット

                                                  Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。サイバーエージェントのプライベートクラウドのストレージについて、宮元氏と知念氏がそれぞれの構成や特徴、実際の運用中に起きた問題点を話しました。後半は、2つ目のプライベートクラウドとアプライアンスストレージについて。前回の記事はこちら 障害に強く速いストレージ 知念洋樹氏(以下、知念):続きまして、今度はTKY02のストレージの話に移ります。TKY02ではCinder-Standard、Cinder-Archive、Cinder-Singleの3つ自作のストレージがあります。ほかにもTKY02に関してはアプライアンスのストレージとCephもありますので、そちらも紹介していきます。 まずCinder-Standardについて紹介します。コンセプトは「障害に強く速いストレー

                                                    「障害に強い」「速い」「大容量」を実現 サイバーエージェント自作ストレージのメリット・デメリット
                                                  • 2020年7月31日 時価総額は200億ドル ―Apache Software Foundationが2020年度活動レポートを公開 | gihyo.jp

                                                    Linux Daily Topics 2020年7月31日時価総額は200億ドル ―Apache Software Foundationが2020年度活動レポートを公開 Apache Software Foundation(ASF)は7月29日(米国時間⁠)⁠、2020年度(2019年5月1日~2020年4月30日)の活動内容をレポートとして公開した。同レポートによればASFがサポートする350以上ものオープンソースプロジェクト/イニシアティブの価値は約200億ドル(2兆8653億円)以上に相当するという。 The Apache® Software Foundation Announces Annual Report for 2020 Fiscal Year: The Apache Software Foundation Blog 2020年度のハイライトとして紹介されているおもなトピック

                                                      2020年7月31日 時価総額は200億ドル ―Apache Software Foundationが2020年度活動レポートを公開 | gihyo.jp
                                                    • DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ

                                                      はじめに 本記事はエムスリー Advent Calendar 2020の12日目の記事です。 エンジニアリンググループの西名(@mikesorae)です。 私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。 クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。 また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ

                                                        DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ
                                                      • メタデータ管理OSS個人的まとめ - うさだのブログ

                                                        いろいろ触ったのでまとめる。(今後追記予定あり) TL;DR データガバナンスツールのOSSにおいて、世間的にデファクトスタンダード的なものも、個人的にこれは!というものも見た限りなかった。 テクニカルメタデータの収集はだいたいどこも同じな一方、ビジネスメタデータ、リネージへの取り組みには顕著な差がある。 お金があるなら有償製品を導入したほうがいいかもしれない。 1 データガバナンスツールは、JIRAみたいなビジネスツールとして捉えるべきという所感。 変更履歴 2020-05-18 Egeriaを追加 前提と関心のある領域 ベンチャーではなく様々な領域の事業を扱う大きめの企業。 マルチクラウド、マルチベンダー、マルチプラットフォーム。データストアは数百以上。 ETL基盤、データ分析基盤はすでに存在し、内製のメタデータ管理ツールもある。 データ利活用よりもガバナンスを強化したい。 調べたOS

                                                          メタデータ管理OSS個人的まとめ - うさだのブログ
                                                        • 非英語ネイティブにとってのOSSのメンテナンスコスト | Democratizing Data

                                                          disclaimer: この記事を書いている人はClouderaというHadoop/Sparkのディストリビューターの会社にいます。 codelunch.fmの20回目を聞いていろいろ思うところがあったのでつらつら買いてみます。 codelunch.fmこの回のcodelunch.fmでは、前職の同僚である丸山さん(@h13i32maru)と@hokacchaさんが、お互いの家庭環境の変化を交えながら個人プロダクトの開発について話しているエピソードです。これ自体なかなかおもしろい回なので、趣味でプロダクト開発している人は聞いてみるといいんじゃないかなと思います。 丸山さんはJasperやESDocを精力的に開発していますし、hokacchaさんはnodebrewやadventarを作られています。彼らの話していた、個人で趣味プロダクトを開発するモチベーションは何かというところは、以下のよう

                                                            非英語ネイティブにとってのOSSのメンテナンスコスト | Democratizing Data
                                                          • Pivotal Greenplum 6, Now GA, Uses PostgreSQL to Reimagine Modern Analytics at Scale

                                                            Pivotal GreenplumⓇ 6 is now generally available. Check out the docs, then download it from Pivotal Network. Over the past 16 years, Greenplum has helped enterprises analyze data more effectively. These firms use Greenplum to increase revenue, decrease cost, and add across-the-board efficiencies to their operations. That’s the power of a scale-out high-performance analytics data warehouse! PostgreS

                                                              Pivotal Greenplum 6, Now GA, Uses PostgreSQL to Reimagine Modern Analytics at Scale
                                                            • 「現実的にワークする」データカタログ | NTTデータ

                                                              「データの種類が膨大で、データレイクのどこに何が格納されているのか分からない」「思いついた仮説を検証したいがデータの所在が分からない」。お客様からのこんなご相談が、この1~2年で激増している。データカタログを無理なく構築し育てる方法を探る。 HadoopやNoSQLの誕生を受け、2012年ころから「ビッグデータ」というキーワードが広く認知されました。そして、クラウド、ストリーミング、AIといった様々な要素技術の発展が、大量データの収集と活用を後押ししてきました。 多くの企業や組織が「データレイク」構築に取り組み、従来のシステムでは取り扱うことが困難だった巨大で複雑なデータを収集・格納しています。 データレイクに社内外から収集した様々なデータが格納されると、もはやその全貌を把握することが困難で、「欲しいデータがどこにあるか分からない」「目の前のデータの業務的な意味が分からない」という問題に直

                                                                「現実的にワークする」データカタログ | NTTデータ
                                                              • [Amazon Athena]S3バケットとDynamoDBに保管されたデータのJOIN処理をAthenaでやってみた | DevelopersIO

                                                                やってみた 環境作成 CloudFormationスタック CloudFormationスタックのテンプレートです。 template.yaml AWSTemplateFormatVersion: '2010-09-09' Resources: DeviceMasterDynamoDBTable: Type: AWS::DynamoDB::Table Properties: TableName: device_master BillingMode: PAY_PER_REQUEST AttributeDefinitions: - AttributeName: deviceId AttributeType: S KeySchema: - AttributeName: deviceId KeyType: HASH DevicesRawDataBucket: Type: AWS::S3::Buck

                                                                  [Amazon Athena]S3バケットとDynamoDBに保管されたデータのJOIN処理をAthenaでやってみた | DevelopersIO
                                                                • 独自の解析エンジンが、理想とするプロダクトには必要だった──プレイドのCPOとCTOが語るKARTEの開発秘話|PLAID

                                                                  独自の解析エンジンが、理想とするプロダクトには必要だった──プレイドのCPOとCTOが語るKARTEの開発秘話 CXプラットフォーム「KARTE」を運営するプレイド。その開発の基盤を支えるエンジニアたちは、日々どんなことを考えているのでしょうか。 創業当初からKARTEの開発を支えてきたCPOの柴山直樹と、2015年にジョインしたCTOの牧野祐己がKARTEの開発秘話や、プロダクトを通して叶えたい未来を語り合いました。聞き手を担当したのは、Product Specialist Engineerの池上 純平です。 リアルタイム性と自由度を両立させるために。独自の解析エンジンを開発ーー「KARTE」の特徴のひとつに、独自解析エンジン「Brook」があります。独自に解析エンジンを開発しようとしたきっかけはなんだったのですか? 柴山 人に関する行動データを扱えるサービスを作ろうという話が、KART

                                                                    独自の解析エンジンが、理想とするプロダクトには必要だった──プレイドのCPOとCTOが語るKARTEの開発秘話|PLAID
                                                                  • とあるタイプの検索サイトのElasticsearchを使ったサービス設計などに関する私見(2019年改訂版) - はてだBlog(仮称)

                                                                    検索サイトで、どのようにElasticsearchを活かしてサイトをディレクションするかについて自分の意見をまとめてみました。 まとめてみたと言いいつつ、アタマの整理の過程をダンプしたという体裁になっています。... のでまとまってないかもしれません。 何かの勢いで書いてはならないことを書いてしまわないようにしたため、筆者のドキュメント力とは別の問題として、本来は具体的なもので述べるところ、抽象的な言い方になっているところが多々あります。 一方で、多少リアルな例にしたいと思い、ある程度シーンを絞って記述したところもあるのですが、抽象化との兼ね合いで、論理の飛躍や検証が甘いところもあると思います。 つまるところポエムになっているかもしれません。 また、2019年改訂版としていますが、改訂前のものがあるわけではありません。今後、世の進歩とともに、陳腐化するかもという言い訳でして、2019年現在

                                                                      とあるタイプの検索サイトのElasticsearchを使ったサービス設計などに関する私見(2019年改訂版) - はてだBlog(仮称)
                                                                    • Databases in 2021: A Year in Review | OtterTune

                                                                      It was a wild year for the database industry, with newcomers overtaking the old guard, vendors fighting over benchmark numbers, and eye-popping funding rounds. We also had to say goodbye to some of our database friends through acquisitions, bankruptcies, or retractions. As the end of the year draws near, it’s worth reflecting and taking stock as we move into 2022. Here are some of the highlights a

                                                                        Databases in 2021: A Year in Review | OtterTune
                                                                      • HiveとPrestoの違いについて調べてみた - Qiita

                                                                        近年、分散型SQLクエリエンジンとして注目を集めている「Hive」と「Presto」 それらの性質の違いに目を向けて、白黒つけてやろうじゃないかという記事です そもそもHiveって? 簡単に言ってしまえば、MapReduce処理を可能にする分散型SQLクエリエンジンです MapReduce処理とは大量のデータを高速に処理するための分散処理フレームワークで、HiveQLというSQLライクな言語を用いてHadoop上で実行できるという優れものでした とまあその辺りで、Hiveに関する詳細は諸事情により割愛させていただきます(書き出したらキリがないので…) そんなんじゃ理解できねえよ!という方は、「Hadoop Hive MapReduce」などのキーワードで検索して頂けるとご納得いくかと思います Hiveはそもそもバッチ処理を目的としており、クエリを実行してからのレスポンスの遅さがネックとなっ

                                                                          HiveとPrestoの違いについて調べてみた - Qiita
                                                                        • InsightTokyo #1 を見ながら考えていたこと|jinya nakamura

                                                                          昨夜、InsightTokyo #1 がありまして、参加しました。オンラインでの開催だったので、自宅で子ども達のワーとかギャーを振り切りながらでしたが、登壇者の皆さんのとても興味深いご発表を聞くことができてとても有意義でした。 今回のお題は、「UXリサーチ×データ分析」とのことで、UXリサーチの側とデータ分析の側、双方の融合するポイントを探るのがテーマ。ご登壇の皆さんはそれぞれ、各社で取り組んでいるUXリサーチ×データ分析の現場が今どうなっていて、何をしています、ということをお話しくださいました。 ・・・というところで、オールドタイプのデータ分析者(=私含む)にとっては、「UXリサーチって何?」「データ分析と何が違う?」ってなりまして。聞いているうちに、あぁ、これは言葉がかなり違うな、と。ですので、この言葉の違いを、どちらが良い悪いではなく、自分の推測も交えて、一旦紐解こうと思います。以降

                                                                            InsightTokyo #1 を見ながら考えていたこと|jinya nakamura
                                                                          • Microsoft Igniteで披露されたデータサービスやアナリティクスのニュースを振り返る

                                                                            Andrew Brust (Special to ZDNET.com) 翻訳校正: 石橋啓一郎 2019-11-13 07:30 Microsoft主催のイベント「Ignite」の基調講演では、データサービスやアナリティクスに関するニュースが数多く発表された。筆者はすでに、米ZDNetで「Azure Synapse Analytics」、「SQL Server 2019」の一般提供開始、「Power BI」のデータ保護に関する新機能についての記事を書いた。しかし、データサービスやアナリティクスに関する発表は、ほかにも大量にあった。 クラウドデータベースをどこでも利用できる「Azure data services anywhere」 米国時間11月4日に発表されたその他のニュースの中でもっとも重要なのは、「Azure Arc」のリリースだろう。この技術は、「Azureのサービスをどこにでも展

                                                                              Microsoft Igniteで披露されたデータサービスやアナリティクスのニュースを振り返る
                                                                            • Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog

                                                                              マイクロアドではデータ基盤に Hive が使われています。 データ基盤について、以下の記事をご確認ください。 MicroAdのデータ基盤 より使いやすいデータ分析基盤にするために この一年間、Hive を使う機会が増えましたのでクエリパフォーマンスを改善する為に Hive 設定を試行錯誤しましたので、その中からいくつか紹介します。 前提条件 1. Vectorization 2. Cost-based Optimization (CBO) 3. 並列実行 4. MapJoin 参考リンク 前提条件 Hive 1.1.0-cdh5.14.0 まず基本ですが SET; を実行すると、以下が表示されます。 システム変数 環境変数 Hadoop 設定(ユーザーが定義した・デフォルトプロパティ) Hive 設定(ユーザーが定義した・デフォルトプロパティ) set, define, hivevar で

                                                                                Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog
                                                                              • データポータルを使用してAWS Athena,S3のデータを可視化する - RHYTHM TECH BLOG

                                                                                こんにちは。香田です。 今回はAWS Athena,S3で参照しているデータに対して、データポータルのコミュニティコネクタを利用して可視化する方法を紹介していきます。 はじめに 今回利用するコミュニティコネクタとは、誰でも構築可能なコネクタとして提供されており、Google Apps Scriptを使用して開発さています。 コミュニティコネクタの作成方法等の詳細についてはこちらを参考にしてみてください。 今回コミュニティコネクタとして公開されている下記のGitHubリポジトリを利用して作成していきます。 AWS Athena Connector for Data Studio プロジェクト作成 はじめにGoogle Apps Scriptページへアクセスしプロジェクトを作成します。 [新しいプロジェクト]をクリックします。 プロジェクト名を無題のプロジェクトからAWS Athenaへ変更し

                                                                                  データポータルを使用してAWS Athena,S3のデータを可視化する - RHYTHM TECH BLOG
                                                                                • AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ

                                                                                  概要フューチャーアドベントカレンダーの6日目のエントリーです。 昨日はyut0nさんによる「GoogleカレンダーのイベントをHangouts Chatに通知するbotを作った話」でした。 当記事では、AWS Glue をローカル環境で単体テストするための環境構築方法についてまとめました。 手順 環境構築 pytest の環境構築 conftest.py の設定 テスト対象の作成 テスト実行 実行環境 Amazon Linux 2 AMI 2.0.20190618 x86_64 HVM gp2 Docker 18.06.1-ce docker-compose version 1.24.0 1. 環境構築docker compose を利用します。 GlueのDockerfileは、 こちらの記事(AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | F

                                                                                    AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ