並び順

ブックマーク数

期間指定

  • から
  • まで

481 - 520 件 / 720件

新着順 人気順

hadoopの検索結果481 - 520 件 / 720件

  • 「障害に強い」「速い」「大容量」を実現 サイバーエージェント自作ストレージのメリット・デメリット

    Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。サイバーエージェントのプライベートクラウドのストレージについて、宮元氏と知念氏がそれぞれの構成や特徴、実際の運用中に起きた問題点を話しました。後半は、2つ目のプライベートクラウドとアプライアンスストレージについて。前回の記事はこちら 障害に強く速いストレージ 知念洋樹氏(以下、知念):続きまして、今度はTKY02のストレージの話に移ります。TKY02ではCinder-Standard、Cinder-Archive、Cinder-Singleの3つ自作のストレージがあります。ほかにもTKY02に関してはアプライアンスのストレージとCephもありますので、そちらも紹介していきます。 まずCinder-Standardについて紹介します。コンセプトは「障害に強く速いストレー

      「障害に強い」「速い」「大容量」を実現 サイバーエージェント自作ストレージのメリット・デメリット
    • 2020年7月31日 時価総額は200億ドル ―Apache Software Foundationが2020年度活動レポートを公開 | gihyo.jp

      Linux Daily Topics 2020年7月31日時価総額は200億ドル ―Apache Software Foundationが2020年度活動レポートを公開 Apache Software Foundation(ASF)は7月29日(米国時間⁠)⁠、2020年度(2019年5月1日~2020年4月30日)の活動内容をレポートとして公開した。同レポートによればASFがサポートする350以上ものオープンソースプロジェクト/イニシアティブの価値は約200億ドル(2兆8653億円)以上に相当するという。 The Apache® Software Foundation Announces Annual Report for 2020 Fiscal Year: The Apache Software Foundation Blog 2020年度のハイライトとして紹介されているおもなトピック

        2020年7月31日 時価総額は200億ドル ―Apache Software Foundationが2020年度活動レポートを公開 | gihyo.jp
      • DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ

        はじめに 本記事はエムスリー Advent Calendar 2020の12日目の記事です。 エンジニアリンググループの西名(@mikesorae)です。 私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。 クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。 また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ

          DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ
        • メタデータ管理OSS個人的まとめ - うさだのブログ

          いろいろ触ったのでまとめる。(今後追記予定あり) TL;DR データガバナンスツールのOSSにおいて、世間的にデファクトスタンダード的なものも、個人的にこれは!というものも見た限りなかった。 テクニカルメタデータの収集はだいたいどこも同じな一方、ビジネスメタデータ、リネージへの取り組みには顕著な差がある。 お金があるなら有償製品を導入したほうがいいかもしれない。 1 データガバナンスツールは、JIRAみたいなビジネスツールとして捉えるべきという所感。 変更履歴 2020-05-18 Egeriaを追加 前提と関心のある領域 ベンチャーではなく様々な領域の事業を扱う大きめの企業。 マルチクラウド、マルチベンダー、マルチプラットフォーム。データストアは数百以上。 ETL基盤、データ分析基盤はすでに存在し、内製のメタデータ管理ツールもある。 データ利活用よりもガバナンスを強化したい。 調べたOS

            メタデータ管理OSS個人的まとめ - うさだのブログ
          • 非英語ネイティブにとってのOSSのメンテナンスコスト | Democratizing Data

            disclaimer: この記事を書いている人はClouderaというHadoop/Sparkのディストリビューターの会社にいます。 codelunch.fmの20回目を聞いていろいろ思うところがあったのでつらつら買いてみます。 codelunch.fmこの回のcodelunch.fmでは、前職の同僚である丸山さん(@h13i32maru)と@hokacchaさんが、お互いの家庭環境の変化を交えながら個人プロダクトの開発について話しているエピソードです。これ自体なかなかおもしろい回なので、趣味でプロダクト開発している人は聞いてみるといいんじゃないかなと思います。 丸山さんはJasperやESDocを精力的に開発していますし、hokacchaさんはnodebrewやadventarを作られています。彼らの話していた、個人で趣味プロダクトを開発するモチベーションは何かというところは、以下のよう

              非英語ネイティブにとってのOSSのメンテナンスコスト | Democratizing Data
            • Pivotal Greenplum 6, Now GA, Uses PostgreSQL to Reimagine Modern Analytics at Scale

              Pivotal GreenplumⓇ 6 is now generally available. Check out the docs, then download it from Pivotal Network. Over the past 16 years, Greenplum has helped enterprises analyze data more effectively. These firms use Greenplum to increase revenue, decrease cost, and add across-the-board efficiencies to their operations. That’s the power of a scale-out high-performance analytics data warehouse! PostgreS

                Pivotal Greenplum 6, Now GA, Uses PostgreSQL to Reimagine Modern Analytics at Scale
              • 「現実的にワークする」データカタログ | NTTデータ

                「データの種類が膨大で、データレイクのどこに何が格納されているのか分からない」「思いついた仮説を検証したいがデータの所在が分からない」。お客様からのこんなご相談が、この1~2年で激増している。データカタログを無理なく構築し育てる方法を探る。 HadoopやNoSQLの誕生を受け、2012年ころから「ビッグデータ」というキーワードが広く認知されました。そして、クラウド、ストリーミング、AIといった様々な要素技術の発展が、大量データの収集と活用を後押ししてきました。 多くの企業や組織が「データレイク」構築に取り組み、従来のシステムでは取り扱うことが困難だった巨大で複雑なデータを収集・格納しています。 データレイクに社内外から収集した様々なデータが格納されると、もはやその全貌を把握することが困難で、「欲しいデータがどこにあるか分からない」「目の前のデータの業務的な意味が分からない」という問題に直

                  「現実的にワークする」データカタログ | NTTデータ
                • [Amazon Athena]S3バケットとDynamoDBに保管されたデータのJOIN処理をAthenaでやってみた | DevelopersIO

                  やってみた 環境作成 CloudFormationスタック CloudFormationスタックのテンプレートです。 template.yaml AWSTemplateFormatVersion: '2010-09-09' Resources: DeviceMasterDynamoDBTable: Type: AWS::DynamoDB::Table Properties: TableName: device_master BillingMode: PAY_PER_REQUEST AttributeDefinitions: - AttributeName: deviceId AttributeType: S KeySchema: - AttributeName: deviceId KeyType: HASH DevicesRawDataBucket: Type: AWS::S3::Buck

                    [Amazon Athena]S3バケットとDynamoDBに保管されたデータのJOIN処理をAthenaでやってみた | DevelopersIO
                  • 独自の解析エンジンが、理想とするプロダクトには必要だった──プレイドのCPOとCTOが語るKARTEの開発秘話|PLAID

                    独自の解析エンジンが、理想とするプロダクトには必要だった──プレイドのCPOとCTOが語るKARTEの開発秘話 CXプラットフォーム「KARTE」を運営するプレイド。その開発の基盤を支えるエンジニアたちは、日々どんなことを考えているのでしょうか。 創業当初からKARTEの開発を支えてきたCPOの柴山直樹と、2015年にジョインしたCTOの牧野祐己がKARTEの開発秘話や、プロダクトを通して叶えたい未来を語り合いました。聞き手を担当したのは、Product Specialist Engineerの池上 純平です。 リアルタイム性と自由度を両立させるために。独自の解析エンジンを開発ーー「KARTE」の特徴のひとつに、独自解析エンジン「Brook」があります。独自に解析エンジンを開発しようとしたきっかけはなんだったのですか? 柴山 人に関する行動データを扱えるサービスを作ろうという話が、KART

                      独自の解析エンジンが、理想とするプロダクトには必要だった──プレイドのCPOとCTOが語るKARTEの開発秘話|PLAID
                    • とあるタイプの検索サイトのElasticsearchを使ったサービス設計などに関する私見(2019年改訂版) - はてだBlog(仮称)

                      検索サイトで、どのようにElasticsearchを活かしてサイトをディレクションするかについて自分の意見をまとめてみました。 まとめてみたと言いいつつ、アタマの整理の過程をダンプしたという体裁になっています。... のでまとまってないかもしれません。 何かの勢いで書いてはならないことを書いてしまわないようにしたため、筆者のドキュメント力とは別の問題として、本来は具体的なもので述べるところ、抽象的な言い方になっているところが多々あります。 一方で、多少リアルな例にしたいと思い、ある程度シーンを絞って記述したところもあるのですが、抽象化との兼ね合いで、論理の飛躍や検証が甘いところもあると思います。 つまるところポエムになっているかもしれません。 また、2019年改訂版としていますが、改訂前のものがあるわけではありません。今後、世の進歩とともに、陳腐化するかもという言い訳でして、2019年現在

                        とあるタイプの検索サイトのElasticsearchを使ったサービス設計などに関する私見(2019年改訂版) - はてだBlog(仮称)
                      • Snowflake vs. BigQuery 選択ガイド

                        ビジネスのニーズや目的に適したデータウェアハウスを選定することは、ビッグデータ戦略の重要な要素です。残念なことに、あまりにも多くの企業が、自社に最適なデータウェアハウスをどのように選択すれば良いかという問題に悩んでいます。 大方の予測では、データウェアハウスのプロジェクトの60~70%は失敗するとされています。。その理由は、コストや時間の見積もりが悪かったり、組織内の賛同が得られなかったり、最初から間違ったテクノロジーを選択していたりと、さまざまな理由があります。 しかし、データウェアハウス・プロジェクトが成功すれば、強力なROIを実現し、より鋭いデータドリブンなインサイトを提供することでビジネスを変革することができます。 Snowflake、Google BigQuery、Amazon Redshiftは、成熟した堅牢なクラウドベースのデータウェアハウスの巨人であり、何千もの顧客に利用さ

                          Snowflake vs. BigQuery 選択ガイド
                        • Databases in 2021: A Year in Review | OtterTune

                          It was a wild year for the database industry, with newcomers overtaking the old guard, vendors fighting over benchmark numbers, and eye-popping funding rounds. We also had to say goodbye to some of our database friends through acquisitions, bankruptcies, or retractions. As the end of the year draws near, it’s worth reflecting and taking stock as we move into 2022. Here are some of the highlights a

                            Databases in 2021: A Year in Review | OtterTune
                          • HiveとPrestoの違いについて調べてみた - Qiita

                            近年、分散型SQLクエリエンジンとして注目を集めている「Hive」と「Presto」 それらの性質の違いに目を向けて、白黒つけてやろうじゃないかという記事です そもそもHiveって? 簡単に言ってしまえば、MapReduce処理を可能にする分散型SQLクエリエンジンです MapReduce処理とは大量のデータを高速に処理するための分散処理フレームワークで、HiveQLというSQLライクな言語を用いてHadoop上で実行できるという優れものでした とまあその辺りで、Hiveに関する詳細は諸事情により割愛させていただきます(書き出したらキリがないので…) そんなんじゃ理解できねえよ!という方は、「Hadoop Hive MapReduce」などのキーワードで検索して頂けるとご納得いくかと思います Hiveはそもそもバッチ処理を目的としており、クエリを実行してからのレスポンスの遅さがネックとなっ

                              HiveとPrestoの違いについて調べてみた - Qiita
                            • InsightTokyo #1 を見ながら考えていたこと|jinya nakamura

                              昨夜、InsightTokyo #1 がありまして、参加しました。オンラインでの開催だったので、自宅で子ども達のワーとかギャーを振り切りながらでしたが、登壇者の皆さんのとても興味深いご発表を聞くことができてとても有意義でした。 今回のお題は、「UXリサーチ×データ分析」とのことで、UXリサーチの側とデータ分析の側、双方の融合するポイントを探るのがテーマ。ご登壇の皆さんはそれぞれ、各社で取り組んでいるUXリサーチ×データ分析の現場が今どうなっていて、何をしています、ということをお話しくださいました。 ・・・というところで、オールドタイプのデータ分析者(=私含む)にとっては、「UXリサーチって何?」「データ分析と何が違う?」ってなりまして。聞いているうちに、あぁ、これは言葉がかなり違うな、と。ですので、この言葉の違いを、どちらが良い悪いではなく、自分の推測も交えて、一旦紐解こうと思います。以降

                                InsightTokyo #1 を見ながら考えていたこと|jinya nakamura
                              • Microsoft Igniteで披露されたデータサービスやアナリティクスのニュースを振り返る

                                Andrew Brust (Special to ZDNET.com) 翻訳校正: 石橋啓一郎 2019-11-13 07:30 Microsoft主催のイベント「Ignite」の基調講演では、データサービスやアナリティクスに関するニュースが数多く発表された。筆者はすでに、米ZDNetで「Azure Synapse Analytics」、「SQL Server 2019」の一般提供開始、「Power BI」のデータ保護に関する新機能についての記事を書いた。しかし、データサービスやアナリティクスに関する発表は、ほかにも大量にあった。 クラウドデータベースをどこでも利用できる「Azure data services anywhere」 米国時間11月4日に発表されたその他のニュースの中でもっとも重要なのは、「Azure Arc」のリリースだろう。この技術は、「Azureのサービスをどこにでも展

                                  Microsoft Igniteで披露されたデータサービスやアナリティクスのニュースを振り返る
                                • Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog

                                  マイクロアドではデータ基盤に Hive が使われています。 データ基盤について、以下の記事をご確認ください。 MicroAdのデータ基盤 より使いやすいデータ分析基盤にするために この一年間、Hive を使う機会が増えましたのでクエリパフォーマンスを改善する為に Hive 設定を試行錯誤しましたので、その中からいくつか紹介します。 前提条件 1. Vectorization 2. Cost-based Optimization (CBO) 3. 並列実行 4. MapJoin 参考リンク 前提条件 Hive 1.1.0-cdh5.14.0 まず基本ですが SET; を実行すると、以下が表示されます。 システム変数 環境変数 Hadoop 設定(ユーザーが定義した・デフォルトプロパティ) Hive 設定(ユーザーが定義した・デフォルトプロパティ) set, define, hivevar で

                                    Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog
                                  • データポータルを使用してAWS Athena,S3のデータを可視化する - RHYTHM TECH BLOG

                                    こんにちは。香田です。 今回はAWS Athena,S3で参照しているデータに対して、データポータルのコミュニティコネクタを利用して可視化する方法を紹介していきます。 はじめに 今回利用するコミュニティコネクタとは、誰でも構築可能なコネクタとして提供されており、Google Apps Scriptを使用して開発さています。 コミュニティコネクタの作成方法等の詳細についてはこちらを参考にしてみてください。 今回コミュニティコネクタとして公開されている下記のGitHubリポジトリを利用して作成していきます。 AWS Athena Connector for Data Studio プロジェクト作成 はじめにGoogle Apps Scriptページへアクセスしプロジェクトを作成します。 [新しいプロジェクト]をクリックします。 プロジェクト名を無題のプロジェクトからAWS Athenaへ変更し

                                      データポータルを使用してAWS Athena,S3のデータを可視化する - RHYTHM TECH BLOG
                                    • [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO

                                      [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 先日2024年02月20日(火)、クラスメソッド株式会社と株式会社メソドロジックの共催イベント『【毎週開催】メソドロジック社共催!イチから始めるデータ活用!8週連続ウェビナー』の第1回開催回である『データメッシュによるデータガバナンス編』を開催しました。 当エントリではその内容についてレポート致します。 目次 イベント概要 イベントレポート データ活用支援サービスのご紹介 イチから学ぶデータメッシュによるデータガバナンス 全体質疑応答 まとめ イベント概要 第1回目となる今回取り扱うテーマは『データメッシュによるデータガバナンス』です。 イベントレポート データ活用

                                        [レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『データメッシュによるデータガバナンス編』を開催しました。 | DevelopersIO
                                      • AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ

                                        概要フューチャーアドベントカレンダーの6日目のエントリーです。 昨日はyut0nさんによる「GoogleカレンダーのイベントをHangouts Chatに通知するbotを作った話」でした。 当記事では、AWS Glue をローカル環境で単体テストするための環境構築方法についてまとめました。 手順 環境構築 pytest の環境構築 conftest.py の設定 テスト対象の作成 テスト実行 実行環境 Amazon Linux 2 AMI 2.0.20190618 x86_64 HVM gp2 Docker 18.06.1-ce docker-compose version 1.24.0 1. 環境構築docker compose を利用します。 GlueのDockerfileは、 こちらの記事(AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | F

                                          AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ
                                        • Middlewares Deep Talksというイベントをやりました - oranie's blog

                                          oranie.hatenablog.com というブログを書いてからはや半年ですが予定どおり実施していました。おかげさまで大盛況でした。 発表頂いたみなさまの資料などは以下の通りです。本当にまとめが遅くなってしまってすみませんでした・・・。せっかく旬の資料だったのが少し時間経ってまとめになってしまいすみません。 speakerdeck.com PostgreSQL 12の話 from Masahiko Sawada www.slideshare.net noti.st www.scylladb.com S3 整合性モデルと Hadoop/Spark の話 from 宜孝 関山 www.slideshare.net speakerdeck.com で、こんな雑な報告をしておきながらアレですが、来年改めて第二回やれれば良いなーというのと、今度はDBももちろんですがWebサーバとか全然違う方面で

                                            Middlewares Deep Talksというイベントをやりました - oranie's blog
                                          • Google Cloud Professional Machine Learning Engineer 合格体験記 - Timee Product Team Blog

                                            こんにちは、タイミーのデータ統括部でデータサイエンティストをしている小関です。 タイミーのデータサイエンスチームでは、データ分析、機械学習モデル構築に加えて、Google Cloudを主軸としたMLOps基盤の構築などの業務に日々取り組んでいます。 その中でもGoogle Cloudを主軸としたMLOps基盤の構築に関連して、Google Cloud Professional Machine Learning Engineer認定資格を社内制度も活用しながら取得したので、実際にした勉強の内容などを紹介したいと思います。 これから受験される方の参考になれば大変嬉しいです! 受験の動機 筆者の勉強開始時の状況 勉強方法 1. 機械学習をビジネス活用する際のベストプラクティス 1.1. Googleが考える機械学習プロジェクトのベスプラ*1を理解 2. Google CloudのML関連サービス

                                              Google Cloud Professional Machine Learning Engineer 合格体験記 - Timee Product Team Blog
                                            • データサイエンティストになるには? 必要なスキル・仕事内容・勉強法を網羅的に解説 - エンジニアtype | 転職type

                                              2021.10.01 エンジニア辞典 データサイエンティストデータベース 「ビッグデータ」という言葉をご存知でしょうか? 従来のシステムでは補完や解析が難しいほどの、巨大で複雑なデータの集合を表す言葉です。 現代の企業には、大量のデータをどのように活用していくかが求められており、データの活用自体が経営戦略にも役立てられています。 そして、大量のデータを収集し、分析する役割を担うのが「データサイエンティスト」。ここでは、今需要が高まっているデータサイエンティストについて、網羅的に解説していきます。 ※この記事は2020年5月15日に公開し、2021年10月1日に更新しています 「データサイエンティスト」とは、ビッグデータと呼ばれる大量データの活用を目的とした技術者のことです。データサイエンティストの概要を詳しく解説していきます。 誕生した背景 データサイエンティストが誕生した背景には、ビッグ

                                                データサイエンティストになるには? 必要なスキル・仕事内容・勉強法を網羅的に解説 - エンジニアtype | 転職type
                                              • ダウンタイムなしでHadoopクラスタを移行した時の話

                                                こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。 先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。 この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。 今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつか

                                                  ダウンタイムなしでHadoopクラスタを移行した時の話
                                                • メディア会社がプラットフォーマーから独立するための攻略本 デジタルメディアの未来 #3

                                                  Key Takeaway このブログの重要なことGDPR後の世界では、メディア会社が持つデータの価値が高騰しています。その価値をうまく生かしている例は世界中にたくさんあります。日本のメディアが、この戦略を実行する上で、ニュースアグリゲーターへの配信は大きな障害です。前置き「デジタルメディアの未来」というこの連載では、私は、第1回『ヤフーと新聞 どのような戦略をパブリッシャーはもつべきか』で、ヤフーが新聞社のコンテンツを活用して儲けているが、収益分配はおもわしくないことについて触れ、メディア会社が「ニュースアグリゲーターから独立するための戦略」を並行して持つことの重要性を説明しました。 第2回『メディア会社は合併するヤフーやLINEと組むべき? それとも?』では、ヤフーとLINEの合併に対しメディア会社がどのように反応するべきか、を考えてみました。両者はインターネット広告市場の一定の取り分を

                                                    メディア会社がプラットフォーマーから独立するための攻略本 デジタルメディアの未来 #3
                                                  • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

                                                    マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

                                                      データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
                                                    • いったいSnowflakeのなにがすごいのか|生田優輔

                                                      「経済にとってのデータの価値は、30年前と比較して1,000倍以上である」 現SnowflakeのCEOであるフランク・スルートマン (Frank Slootman) はそう語る (1)。 2012年に創業したSnowflakeは、クラウドデータウェアハウスのリーダー的存在に成長し、2020年にはこれまでのソフトウェア企業として史上最大規模のIPOを果たした。 そして今なお、Snowflakeはこのマーケットを牽引し続け、独自のアプローチによって圧倒的な競争優位性を築き上げている。 どうしてここまでの成長を遂げることができたのか。 この記事では、Snowflakeがもつ競合優位性と、成長を実現したユニークな経営戦略を紐解いていきたい。 強固なプロダクトの競合優位性Snowflakeが提供するソリューションは、クラウド上のデータウェアハウスに対して簡単かつ柔軟に分析を実行することができるとい

                                                        いったいSnowflakeのなにがすごいのか|生田優輔
                                                      • [アップデート] 細かいことはまるっと任せた!Amazon EMR に新たなスケーリングオプション EMR マネージドスケーリング が追加されました! | DevelopersIO

                                                        コンバンハ、千葉(幸)です。 Amazon EMR に新たなスケーリングオプションが追加されました!細かいことは指定せずによしなにやってくれる EMR マネージドスケーリングです! Amazon EMR now supports Managed Scaling – automatically resizing clusters to lower cost Introducing Amazon EMR Managed Scaling – Automatically Resize Clusters to Lower Cost | AWS Big Data Blog これまでのスケーリング設定がハードルが高くて手が出せなかったという方には朗報ですね!コストを減らしていきましょう! 目次 何が変わったのか Amazon EMR の構成要素 クラスターとノード インスタンスフリートまたはインスタンス

                                                          [アップデート] 細かいことはまるっと任せた!Amazon EMR に新たなスケーリングオプション EMR マネージドスケーリング が追加されました! | DevelopersIO
                                                        • [初心者向け]Application Load Balancerのアクセスログを、Amazon Athenaで色々なクエリを実行し分析してみた | DevelopersIO

                                                          [初心者向け]Application Load Balancerのアクセスログを、Amazon Athenaで色々なクエリを実行し分析してみた はじめに ALBのアクセスログを分析したい場合、利用するAWSサービスとしてAthenaが挙がると思います。 Athenaをあまり使ったことがなかったので、利用する手順をまとめました。 また、ALBのアクセスログを分析する上で、使うことが多いであろうクエリもご紹介します 事前準備 アクセスログ用のS3とALBを作成 ALBのアクセスログを有効にしておく 有効化がDenyとなった場合、トラブルシューティングは、以下の記事を参考になるかと思います。 Athenaのクエリの保存先を設定 AWSマネジメントコンソールからAthenaにアクセスし、[データをクエリする]から[クエリエディタを起動]をクリックします。 最初のクエリを実行する前に、AmazonS

                                                            [初心者向け]Application Load Balancerのアクセスログを、Amazon Athenaで色々なクエリを実行し分析してみた | DevelopersIO
                                                          • AWS でモダンなデータ分析ソリューションを構築する方法を学ぼう! | Amazon Web Services

                                                            Amazon Web Services ブログ AWS でモダンなデータ分析ソリューションを構築する方法を学ぼう! この記事は、2022 年 10 月 27 日に Rohan Patil によって投稿された Learn how to build Modern Data Analytics Solutions on AWS を翻訳したものです。 「Building Modern Data Analytics Solutions on AWS」と呼ぶトレーニングシリーズでは、データ分析チームのメンバーや開発者が AWS でモダンデータ分析ソリューションを構築する方法を学ぶことができます。具体的には、データのローディング、データの保存、ビッグデータ分析、データレイク、ストリーミング分析、ビジネスインテリジェンス、機械学習(ML)を AWS でどのように実現するのかを学びます。 データ量は前例のな

                                                              AWS でモダンなデータ分析ソリューションを構築する方法を学ぼう! | Amazon Web Services
                                                            • 【開催報告】Amazon QuickSight事例祭り ~データを駆使して組織とビジネスを変革する~ | Amazon Web Services

                                                              Amazon Web Services ブログ 【開催報告】Amazon QuickSight事例祭り ~データを駆使して組織とビジネスを変革する~ 8/12に「Amazon QuickSight 事例祭り ~データを駆使して組織とビジネスを変革する~」を開催しました。お盆の週であったにも関わらず沢山の方々に参加いただき、登壇者のアクサ生命保険株式会社・株式会社ドリコム・ヤフー株式会社・リブパス株式会社・レッドフォックス株式会社からはデータ活用に関する様々なエピソードをお話しいただきました。 本ブログでは一部発表の内容をご紹介します。また、発表資料および動画へのリンクも掲載しています。 Amazon QuickSight ご紹介 アマゾン ウェブ サービス ジャパン株式会社 アナリティクス事業本部 事業開発 伊東 大騎 資料ダウンロード 初めに伊東からは、なぜ Amazon QuickSi

                                                                【開催報告】Amazon QuickSight事例祭り ~データを駆使して組織とビジネスを変革する~ | Amazon Web Services
                                                              • Containerizing Apache Hadoop Infrastructure at Uber

                                                                You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal

                                                                  Containerizing Apache Hadoop Infrastructure at Uber
                                                                • 仙台を盛り上げる!官民連携で生み出される ビジネス事例とテクノロジーコミュニティ - TECH PLAY Magazine

                                                                  仙台市をフィールドに先端技術を活用した新事業の創出や、先端IT人材の育成・交流によりイノベーションを生み出すプロジェクト「SENDAI X-TECH Innovation Project」。今回のイベントでは、仙台市と官民連携で生まれるビジネスイノベーション事例や、なぜテクノロジーコミュニティが必要なのかをテーマに、仙台にゆかりのある登壇者たちが熱く語り合った。 仙台市がハブとなり、都市体験のアップデートを目指す オープニングで登壇したのは、本イベントの主催者である、仙台市産業振興課の白岩靖史氏。白岩氏はまず、東北6県の都市の中で仙台だけが人口が増えているものの、東京圏への人口流出も多く、差し引きでは転出超過になっている人口減少問題を挙げた。 ▲仙台市 経済局 産業振興課長 白岩 靖史氏 1998年10月仙台市役所入庁。企画、施政方針、PFI/PPP、市長秘書を経て、2010年経済局産業プ

                                                                    仙台を盛り上げる!官民連携で生み出される ビジネス事例とテクノロジーコミュニティ - TECH PLAY Magazine
                                                                  • DynamoDB のデータを Amazon Ion 形式で S3 にエクスポートし Athena からクエリする | DevelopersIO

                                                                    DynamoDBのエクスポート機能でAmazon Ion形式でエクスポートしAthenaからクエリして、集計バッチとして利用する様子をご紹介します ども、大瀧です。 先日DynamoDBはバッチ処理よりストリーム処理が得意という記事が話題になりましたが、本ブログではバッチのアーキテクチャを紹介します!! DynamoDBのエクスポート機能 DynamoDBには継続的バックアップ(PITR)で取得したスナップショットをAmazon S3にエクスポートする機能があり、ある時点のデータを元にしたバッチ処理をテーブルの読み込み容量を消費せずに実行できます。 S3にエクスポートするときのデータ形式はDynamoDB JSONとAmazon Ionテキスト形式の2つから選択できます。IonにはDynamoDBのデータ型を保持する仕組みが内包されているため、JSONやJavascript周りのデータ型変

                                                                      DynamoDB のデータを Amazon Ion 形式で S3 にエクスポートし Athena からクエリする | DevelopersIO
                                                                    • サービス横断で機械学習のデータを使いやすく整形 LINEのMachine Learning室のお仕事

                                                                      LINEの機械学習の専門組織である「Machine Learning室」に所属する機械学習エンジニア、プロジェクトマネージャー、プロダクトマネージャーが、自らの仕事内容を紹介するイベントにおいて、室長の菊地悠氏がMachine Learning室のミッションについて共有しました。 Machine Learning室とは 菊地悠氏(以下、菊地):Machine Learning室の菊地と申します。私からは全体の概要をお伝えして、この後の発表における理解の助けになればと思っています。 LINEでは2つのビジネスドメインで仕事をしています。このうちMachine Learning室は、大量のデータが日々生成される事業領域を主にターゲットにして、コア事業と呼ばれる大勢のユーザーがいる部分であったり、あとはすでにいるユーザーベースをテコにし、新しい事業領域に拡大していくところでも仕事を進めようとして

                                                                        サービス横断で機械学習のデータを使いやすく整形 LINEのMachine Learning室のお仕事
                                                                      • Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた - GMOインターネットグループ グループ研究開発本部

                                                                        2018.04.10 Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた こんにちは。次世代システム研究室のデータベース と Hadoop を担当している M.K. です。 最近 MySQL 系のデータベース (Percona Server / PXC) に関するブログを立て続けに書いていましたが、今回は Hadoop と MySQL 両方に関する内容について書きました。 前々回のブログ:InnoDB だけじゃない!MyRocks (MySQL + RocksDB) ストレージエンジンを試してみた 前回のブログ:MySQLの冗長化を試す!~Percona XtraDB Cluster & ProxySQL & Replication~ Hadoop を構築すると毎回頭を悩ますこととして、H

                                                                        • Apache Bigtop の概要と最新動向

                                                                          本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 18日目の記事です。 この記事では, Apache Bigtop (以下 Bigtop) という OSS プロジェクトの概要と、 2020年12月時点の最新動向について紹介します。 Bigtop の概要と歴史 Bigtop は, Apache Hadoop エコシステムの環境構築やテストを容易にするための Apache Software Foundation 傘下のプロジェクトで、以下のような機能を提供します。 Hadoop や Spark などのビッグデータ関連 OSS を, deb や rpm 形式にビルドしたバイナリパッケージ。 パッケージのインストールとその後の環境設定 (以下、併せてデプロイと呼びます) を自動化するた

                                                                          • 最高のサービスを提供するには内部を理解する必要がある LINEアプリの大規模トラフィックを支えるストレージのしくみ

                                                                            2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこでLINE Z Part チーム シニアソフトウェアエンジニアのルカデテナ ハビエル アキラ 氏が、「LINEアプリにおける大規模トラフィックを支えるストレージ」について共有。後半は実際の事例とケーススタディを紹介しました。 テスト環境を使った最近の事例 ルカデテナ ハビエル アキラ氏:それでは、このテスト環境を使った最近の事例を紹介します。パフォーマンスのスパイクを減らして、クラスタの信頼性の改善を試みました。スパイクの原因としては、ディスクは時々パフォーマンスが急上昇することがあります。メモリアクセスに比べてディスクアクセスは予測することが難しいです。またはネットワークが不安定になって、遅延が増えるということ

                                                                              最高のサービスを提供するには内部を理解する必要がある LINEアプリの大規模トラフィックを支えるストレージのしくみ
                                                                            • IntelliJ IDEAのBigDataToolでS3とGCSのオブジェクトを操作してみる | DevelopersIO

                                                                              はじめに データアナリティクス事業本部のkobayashiです。 IDEとしてJetBrainsのIntellijを愛用しています。前回AWS Toolkit for JetBrains を使ってS3のオブジェクト操作を試してみたのですが、他にも便利なプラグインはないかと探していたところJetBrainsが公式で出しているプラグインであるBig Data Tools がありこちらも使い勝手が良かったのでまとめます。 Big Data Toolsとは Big Data ToolsはJetBrainsが公式に出しているJetBrainsのIDEで動くプラグインで、Zeppelin、 S3、GooglCloudStorage、Spark、Hadoop分散ファイルシステム(HDFS)のデータを監視・処理するためのプラグインになります。 With this plugin, you can conve

                                                                                IntelliJ IDEAのBigDataToolでS3とGCSのオブジェクトを操作してみる | DevelopersIO
                                                                              • ARCHIVED: AWS セキュリティのベスト

                                                                                This paper has been archived For the latest technical content, refer to the AWS Whitepapers & Guides page: https://aws.amazon.com/whitepapers AWS セキュリティのベスト プラクティス 2016 年 8 月 (このホワイトペーパーの最新バージョンは、 http://aws.amazon.com/security を参照してください) This paper has been archived For the latest technical content, refer to the AWS Whitepapers & Guides page: https://aws.amazon.com/whitepapers © 2016, Amazon Web

                                                                                • MinIO: A Bare Metal Drop-In for AWS S3

                                                                                  I have 15 years of consulting & hands-on build experience with clients in the UK, USA, Sweden, Ireland & Germany. Past clients include Bank of America Merrill Lynch, Blackberry, Bloomberg, British Telecom, Ford, Google, ITV, LeoVegas, News UK, Pizza Hut, Royal Mail, T-Mobile, Williams Formula 1, Wise & UBS. I hold both a Canadian and a British passport. My CV, Twitter & LinkedIn. In 2006, AWS laun