並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 720件

新着順 人気順

hadoopの検索結果241 - 280 件 / 720件

  • Why I think GCP is better than AWS

    I originally posted this on Reddit so I could get a good sample of opinions from other engineers to see how they compared to mine before posting and expanding here. This is my opinion based on my experience with both platforms (two years in each). My bias towards GCP is mostly based on the superior experience I have gotten with it and I am in no way affiliated with Google. AWS is still my second c

      Why I think GCP is better than AWS
    • We’re rebranding PrestoSQL as Trino

      We’re rebranding PrestoSQL as Trino. The software and the community you have come to love and depend on aren’t going anywhere, we are simply renaming. Trino is the new name for PrestoSQL, the project supported by the founders and creators of Presto® along with the major contributors – just under a shiny new name. And now you can find us here: GitHub: https://github.com/trinodb/trino. Please give i

        We’re rebranding PrestoSQL as Trino
      • Cloud FunctionsとCloud Workflowsを使ってDataprocを動かしてみよう

        みなさんこんにちは、GMOアドマーケティングのM.H.です。 日に日に溜まっていく膨大なデータを解析したり、機械学習モデルに投げるデータの前処理をしたりするための大規模データの分散処理フレームワークは幾つかありますが、その技術を活用するためにクラウド上のリソースを使ってビッグデータを処理したいケースがあるかと思います。 今回はGoogle Cloud Platformの各種サービスを複合的に活用し、特にCloud WorkflowsとCloud Functionsを組み合わせることで、Dataprocのクラスタを動的に作成・削除しながらジョブを実行する方法について書いていきます。 やりたいこと Dataprocは、Apache SparkやApach Hadoopなどの分散処理のフレームワークをGoogle Cloud Platform(以下 GCP)マネージドで動かすためのサービスです。

          Cloud FunctionsとCloud Workflowsを使ってDataprocを動かしてみよう
        • GitHub - meirwah/awesome-workflow-engines: A curated list of awesome open source workflow engines

          Activepieces - Open source no-code business automation, alternative to Zapier Airflow - Python-based platform for running directed acyclic graphs (DAGs) of tasks Argo Workflows - Open source container-native workflow engine for getting work done on Kubernetes Arvados - Open Source data and workflow management platform with emphasis on reproducibily, scale, and secure data sharing, deployable on cl

            GitHub - meirwah/awesome-workflow-engines: A curated list of awesome open source workflow engines
          • 「データサイエンス部隊が内製で切磋琢磨」から方針転換――機械学習/AIプロジェクトが守るべき4つの骨子

            「データサイエンス部隊が内製で切磋琢磨」から方針転換――機械学習/AIプロジェクトが守るべき4つの骨子:リクルートジョブズ事例に見るAIプロジェクトの勘所(1) リクルートジョブズが機械学習/AIをサービスに活用するプロジェクトで得た知見を紹介する連載。初回は、リクルートジョブズでデータサイエンス部隊が立ち上がった頃に起こった問題について。 本連載「リクルートジョブズ事例に見るAIプロジェクトの勘所」では、リクルートジョブズが機械学習/AIをサービスに活用するプロジェクトで得た知見を、主にエンジニアリングとデータサイエンスの両方に関わる業務を担当している方に向けてお伝えします。機械学習/AIを導入した結果分かった、組織の在り方などを参考にしていただければと思います。 そもそも、リクルートジョブズとは リクルートジョブズは、『タウンワーク』『フロム・エーナビ』『はたらいく』『とらばーゆ』『リ

              「データサイエンス部隊が内製で切磋琢磨」から方針転換――機械学習/AIプロジェクトが守るべき4つの骨子
            • 入門 Python 3 第2版

              データサイエンスやウェブ開発、セキュリティなど、さまざまな分野で人気を獲得してきているPython。本書は、ベストセラー『入門 Python 3』の6年ぶりの改訂版で、プログラミング初級者を対象としたPythonの入門書です。プログラミングおよびPythonの基礎から、ウェブ、データベース、ネットワーク、並行処理といった応用まで、実践を見据えたPythonプログラミングをわかりやすく丁寧に説明します。Python 3.9に対応し、f文字列などの新機能も追加され大幅にボリュームアップしました。Pythonの機能をひと通り網羅し、リファレンスとしても便利です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ペ

                入門 Python 3 第2版
              • MapRのビジネス資産をHPEが買収すると発表。企業としてのMapRは終了か

                Hewlett Packerd Enterprise(HPE)は、主要なHadoopディストリビューションベンダの1つであったMapR Technologiesの持つ技術や知財などのビジネス資産を買収すると発表しました(HPEの発表、MapRの発表)。 MapR is now part of @HPE! Exciting things ahead! Find out more in this new blog post: "HPE Welcomes MapR Community" https://t.co/CwWmIs9Fv1 pic.twitter.com/Thxd78o5PU — MapR Technologies (@mapr) August 5, 2019 MapRは今年の6月に大規模なリストラを行ったことが明らかになり、身売りの交渉をしているのではないかとされていました。 Map

                  MapRのビジネス資産をHPEが買収すると発表。企業としてのMapRは終了か
                • Where Programming, Ops, AI, and the Cloud are Headed in 2021

                  In this report, we look at the data generated by the O’Reilly online learning platform to discern trends in the technology industry—trends technology leaders need to follow. But what are “trends”? All too often, trends degenerate into horse races over languages and platforms. Look at all the angst heating up social media when TIOBE or RedMonk releases their reports on language rankings. Those repo

                    Where Programming, Ops, AI, and the Cloud are Headed in 2021
                  • Spark(DataProc)からBigQuery MLに移行してコストを削減した話 - Platinum Data Blog by BrainPad

                    本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 自社開発サービスである「Rtoaster(アールトースター)」は、2019年にユーザー分析機能の「自動クラスタリング機能」をSpark(DataProc)からBigQueryMLに移行しました。 ブレインパッドの新卒2年目の自社サービス開発エンジニアが、新卒1年目で取り組んだ、この大きなプロジェクトでの経験についてご紹介します! はじめに 背景 ユーザー分析機能と自動クラスタリング 移行前の環境と問題点 BigQuery ML について 実装 モデル移行の実装 結果 料金の削減 実行時間の削減 運用の問題解消 最後に はじめに 本記事は、ブレインパッドの自社サービスである「Rtoaster(アールトースター)」のユーザー分析機能のチームで開発をしている、新卒入社2年目のエンジニア柴内がお送

                      Spark(DataProc)からBigQuery MLに移行してコストを削減した話 - Platinum Data Blog by BrainPad
                    • エンジニアインタビュー 第5回 伊藤明大さん編 - エニグモ開発者ブログ

                      エニグモ、BUYMA の中のひとを知ってもらおうと、エンジニアへのインタビューをしてみました。 第5回は、2018年2月入社の検索エンジニア、伊藤明大(通称:めーだい)さんです。 インタビュアー 小澤:2011年4月入社。部長。 伊藤翔:2018年5月入社。新卒2年目。 職種は? 伊藤翔(以下、翔): 明大さんのポジションは、検索エンジニアですか? Webエンジニアですか? 伊藤明大(以下、明大): 検索エンジニアですかね、わかんないけど(笑) Webエンジニアってのもよくわからないけど、検索をメインでやっているエンジニアですね。 前職は? 翔: 前職ではどんなことをやられていたんですか? 明大: 前職はSolrやElasticSearchを使った検索だけをやってました。 そのまえはFastっていう製品を使っていましたが、それからOSSに置き換えようという話になってSolrやElastic

                        エンジニアインタビュー 第5回 伊藤明大さん編 - エニグモ開発者ブログ
                      • Juliaの速さの核心に迫る〜インタプリタ、コンパイラ、JITコンパイラ〜 - SEむううみんのプログラミングパラダイス

                        新星プログラミング言語Julia。 Rubyの動的さとC言語の速度を両立させた、公認会計士の資格を取得したジャニーズJr.みたいな、そんなのアリかよって感じの言語だ。 Juliaの宣伝文句はすごい。引用してみよう。 僕らが欲しい言語はこんな感じだ。まず、ゆるいライセンスのオープンソースで、Cの速度とRubyの動的さが欲しい。Lispのような真のマクロが使える同図象性のある言語で、Matlabのように分かりやすい数学の記述をしたい。Pythonのように汎用的に使いたいし、Rの統計処理、Perlの文字列処理、Matlabの線形代数計算も要る。シェルのように簡単にいくつかのパーツをつなぎ合わせたい。チョー簡単に習えて、超上級ハッカーも満足する言語。インタラクティブに使えて、かつコンパイルできる言語が欲しい。 (そういえば、C言語の実行速度が必要だってのは言ったっけ?) こんなにもワガママを言った

                        • 機械学習システムを構築するための6つの重要なステップ【前編】 | AI専門ニュースメディア AINOW

                          著者のRahul Agarwal氏は、アメリカ大手小売企業WalmartのITソリューション部門Walmart Labsのインド南部バンガロール支社でデータサイエンティストとして働いています。同氏がMediumに投稿した記事「機械学習システムを構築するための6つの重要なステップ」では、機械学習プロジェクトを成功に導くヒントが6つのフェーズごとに解説されています。 データサイエンティストとして長いキャリアを有する同氏は機械学習プロジェクトを以下のような6つのフェーズに分け、それぞれのフェーズにおいて取り組むべき課題とその課題に対するアドバイスを説きます。 問題の定義:機械学習によって解決すべき問題を定義する。問題の定義とともに、問題解決に成功したと見なせる指標も定義することが重要。 データ:時間が経過すると性能が劣化する恐れのあるモデルに対しては、リアルタイムの訓練を検討する。訓練データとテ

                            機械学習システムを構築するための6つの重要なステップ【前編】 | AI専門ニュースメディア AINOW
                          • S3のサーバーアクセスログから、接続失敗ログを洗い出す | DevelopersIO

                            S3のサーバーアクセスログをAthenaで確認し、アクセスに失敗したログを洗い出す方法をご紹介します。ユーザーからS3に接続できないと連絡があった場合などにご活用ください。 S3のサーバーアクセスログを有効にする S3コンソールから、バケットを選択しプロパティからサーバーアクセスのログ記録を有効にします。 Athenaでテーブルを作成する Athenaコンソールを開き、データベースを作成します。 create database s3_access_logs_db 作成すると、リストに"s3_access_logs_db"が追加されるので選択します。 テーブルを作成します。「LOCATION 's3://awsexamplebucket-logs/prefix'」を実環境に合わせて、実行します。具体的にはS3のサーバーアクセスログの設定で指定したバケットとプレフィックスを指定します。 CRE

                              S3のサーバーアクセスログから、接続失敗ログを洗い出す | DevelopersIO
                            • Amazon EMR のバージョンアップ 3/3:Presto から Trino への移行 - Repro Tech Blog

                              前回の続きです。 EMR 5.36.1 から EMR 6.15.0 への更新 使用するアプリケーションのバージョンは以下のようになりました。OS は Amazon Linux 2 です。 アプリケーション等 EMR 5.36.1 EMR 6.15.0 Tez 0.9.2 0.10.2 Hue 4.10.0 4.11.0 Hive 2.3.9 3.1.3 Hadoop 2.10.1 3.3.6 Presto 0.267 0.2831 Trino N/A 426 Hive, Hadoop, Tez については前の記事で確認済みなので、ここからはそれ以外の要素について検討していきます。 一番問題になったのは Presto から Trino への移行です。Trino 移行に関係して発生した事柄を列挙します。 Datadog Agent の設定変更 任意の期間の指定したタイプのクエリを実行して結果の

                                Amazon EMR のバージョンアップ 3/3:Presto から Trino への移行 - Repro Tech Blog
                              • Engineering SQL Support on Apache Pinot at Uber

                                Uber leverages real-time analytics on aggregate data to improve the user experience across our products, from fighting fraudulent behavior on Uber Eats to forecasting demand on our platform. As Uber’s operations became more complex and we offered additional features and services through our platform, we needed a way to generate more timely analytics on our aggregated marketplace data to better und

                                  Engineering SQL Support on Apache Pinot at Uber
                                • 障害が起きても誰も責めずに最大限活かす環境ができている LINEのサーバーサイドエンジニアが大切にしている思想

                                  LINEで働くエンジニアが、各職種別に日々の業務内容や開発体制、働く環境、今後の展望などについて学生向けに話した「新卒採用 職域別エンジニア会」。今回はサーバーサイドエンジニア会において、LINE Platform開発のサーバーサイドエンジニアとして働く中村俊介氏がLINEにおけるプラットフォーム作りの組織と大切にしていることについて紹介しました。 サーバーサイドエンジニアの全体的な話 中村俊介氏:では、私からサーバーサイドエンジニア会の全体的な話をします。よろしくお願いします。 まず簡単に、私の自己紹介をしますが、LINEの東京オフィスにある「LINE Platform Development Center 1」は、開発1センターあるいはLPDC1と呼ばれていますが、その開発1センターの中で、Messaging Platform開発室のマネージャーをやっています。 今日の発表内容ですが、

                                    障害が起きても誰も責めずに最大限活かす環境ができている LINEのサーバーサイドエンジニアが大切にしている思想
                                  • Tsunami: An extensible network scanning engine to detect severity vulnerabilities with confidence

                                    The latest news from Google on open source releases, major projects, events, and student outreach programs. Tsunami: An extensible network scanning engine to detect severity vulnerabilities with confidence We have released the Tsunami security scanning engine to the open source communities. We hope that the engine can help other organizations protect their users’ data. We also hope to foster colla

                                      Tsunami: An extensible network scanning engine to detect severity vulnerabilities with confidence
                                    • Log4j 脆弱性攻撃の遮断を開始した当ブログサイトのAWS WAF設定を紹介します | DevelopersIO

                                      Log4j 脆弱性対策としてAWSブログで紹介されているAWS WAFのマネージドルールを利用した当ブログサイト(DevelopersIO)の保護設定と、副作用対策について紹介します。 AWSチームのすずきです。 AWSブログで紹介されている、Log4j 脆弱性対策として紹介されているマネージドルール「Log4JRCE」「AnonymouousIPList」「sizeRestrictions_BODY」を利用して、 当ブログサイト(DevelopersIO)の保護を行う機会がありました。 この過程で行ったマネージドルールの評価と、誤検知による副作用を回避する設定について紹介させて頂きます。 評価環境設定 先に紹介した「Log4JRCE」を含む AWSManagedRulesknownBadInputsRuleSet に加え、AWSManagedRulesCommonRuleSet、AWSM

                                        Log4j 脆弱性攻撃の遮断を開始した当ブログサイトのAWS WAF設定を紹介します | DevelopersIO
                                      • EC2 Update – D3 / D3en Dense Storage Instances | Amazon Web Services

                                        AWS News Blog EC2 Update – D3 / D3en Dense Storage Instances We have launched several generations of EC2 instances with dense storage including the HS1 in 2012 and the D2 in 2015. As you can guess from the name, our customers use these instances when they need massive amounts of very economical on-instance storage for their data warehouses, data lakes, network file systems, Hadoop clusters, and th

                                          EC2 Update – D3 / D3en Dense Storage Instances | Amazon Web Services
                                        • MongoDBをインストールした体験談! MySQLとどう違う? 【使うメリットや、特徴、使いどころ、使い方をシェア】 - u nextで息抜きする組み込みエンジニア

                                          MongoDBってどうなの? MySQLと比べて便利なの? MongoDBって簡単に使いだせるの?と感じたあなたにMongoDBの特徴と使い方をシェアします。 MongoDBの10の特徴 1:データベースの概念はRDBと同じ 2: ドキュメント指向のNoSQLデータベース 3:クロスプラットフォーム 4:分散データベースを実現しやすい 5:JSONのデータをほとんどそのまま加工なしで格納できる 6:仕様変更の対応が容易であるのでアジャイル型開発に有利 7:スキーマを定義する必要なし 8:クエリ、ライブラリが充実・それぞれの言語に対応した公式ドライバが豊富にある 9:OBJECT構造がJSONに近い 10:JavascriptのようにMongoDB Shellを使える ドキュメント指向NoSQLについて簡単に説明 JSONについて簡単に説明 MongoDBのインストールをしてみましょう ダウ

                                            MongoDBをインストールした体験談! MySQLとどう違う? 【使うメリットや、特徴、使いどころ、使い方をシェア】 - u nextで息抜きする組み込みエンジニア
                                          • 2021最新機能を搭載した Cloud Run で高次元なセキュリティ対策を実現! | 株式会社トップゲート

                                            削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                            • [翻訳記事] PHP のリリースマネージャーについて

                                              はじめに この記事は PHP Advent Calendar 2022 、最終日の記事です。 このエントリは、PHP 8.2 のリリースマネージャーを務める著者 Sergey Panteleev の許可を得て 原文 を翻訳し、最後に若干の解説を加えたものです。 [翻訳] The PHP 8.2 Release Managers PHP 8.2 が2022年12月8日 にリリース予定です。このバージョンの新機能については、既に多くの記事が書かれています。よってこのエントリでは、PHP のリリースに携わる人達、つまりリリースマネージャー について書いてみることにします。 誰がリリースマネージャーになったの? 私 (Sergey Panteleev)は、今年の5月に PHP のリリースマネージャーチームに参加しました。しかし、私の知り合いの開発者の多くは、PHP のコミュニティにリリースマネージ

                                                [翻訳記事] PHP のリリースマネージャーについて
                                              • 【2023年】AWS全サービスまとめ | DevelopersIO

                                                こんにちは。サービス部の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2023年版です。 こんにちは。サービス部の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2023年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2022年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 234個 です。 まとめるにあたって、

                                                  【2023年】AWS全サービスまとめ | DevelopersIO
                                                • Reliabilityを高めるために最短距離を走る LINEのコンテンツプラットフォームSREの仕事

                                                  LINEユーザーとビジネスの価値をつなぐためのSREとは、いったいどんなことをするのか。LINEの7つの領域から9名が登壇し、業務内容や体制、開発における課題、働く個々人のやりがいなどについて話します。加藤俊弥氏は、LINEのコンテンツプラットフォームのSREについて紹介しました。 Redisのヘビーユーザー 加藤俊弥氏:加藤から「コンテンツプラットフォームのSRE」についてご紹介したいと思います。 まず私の紹介から失礼します。2014年に株式会社ドワンゴに入社しまして、niconicoのバックエンドのエンジニアをやっていました。 アプリケーションのエンジニアとして、ScalaやJavaなどを書いて、その後Web API GatewayのチームのリードやOAuthチームのリードを担当し、Redisのヘビーユーザーでもあったので、RedisのDBAも兼任していました。。 Redisのほうから

                                                    Reliabilityを高めるために最短距離を走る LINEのコンテンツプラットフォームSREの仕事
                                                  • Goで始める分散データ処理。Bigsliceパッケージ入門 - Qiita

                                                    はじめに Go言語で開発された有名な製品はDockerやKubernetesを筆頭に数多く存在します。アプリケーション開発としてもWebAPIのバックエンドやCLIツール開発で利用されることも増えていると感じます。IoTの文脈ではTinyGoなど組み込みプログラム領域でも進化を続けていて、WebAssembly(WASM)向けビルドと相まって今後さらなる拡張に期待を持っている人も多いかと思います。 一方で、大規模(1台のサーバに収まらない)データの分散処理分野では、Apache Spark(もちろんHadoop, YARN, etc.)とそのエコシステムが圧倒的に強いと感じます。AWS上であればSparkのマネージドサービスたるAWS Glueがありますし(EMRもありますが)、GCPだとDataprocでSpark(DataflowをApache Beamで扱うことが多そうですが)が広く

                                                      Goで始める分散データ処理。Bigsliceパッケージ入門 - Qiita
                                                    • [論文紹介] Snowflake - NSDI '20 -

                                                      Building An Elastic Query Engine on Disaggregated Storage 突然始まった、論文紹介シリーズである。 データベースに関連する目に付いた論文をざっくりと解説していく。個人的な興味は分散DB、トランザクション、ストレージエンジン等なので、その辺りに偏ることはご容赦頂きたい。 初回は「Building An Elastic Query Engine on Disaggregated Storage」(日本語訳:分散ストレージ上での弾力性の高いクエリエンジンの構築)、Snowflakeのアーキテクチャを解説した論文を読んでいく。 ※早速お詫びとなるが、Zennのタイトルで文字数制限があり、正式な論文名を当記事に冠することが出来ない。誤解を招くタイトルだったら申し訳ない。 と思ったら こちらに論文の翻訳が発表されていた。英語は苦手だが全文読んで理

                                                        [論文紹介] Snowflake - NSDI '20 -
                                                      • [論文まとめ] 「NewSQL」 の 「New」 の部分は一体何ですか - Qiita

                                                        この記事は DMM advent calendar 2020 8日目の記事です。 NewSQL という言葉を聞いたことがある方がいらっしゃるでしょうか。「NewSQL」 の 「NEW」 の部分は一体何ですか等の疑問がありませんか? 筆者は最近 TiDB を勉強する時に、上記の疑問がよく頭に浮かび上がるので、調べてみました。そして、「What’s Really New with NewSQL?」 という論文を見つけた。 作者の Andrew Pavlo と Matthew Aslett は両方ともコンピュータサイエンスの専門家なので、この文章は非常に参考になれると思うため、概要をまとめました。自分は英語力が弱いので間違えたことろがあるかもしれませんが、深い興味があればリンクのPDFを読んでもいいと思う。 1. A Brief History of DBMSS 世界初のデータベース: IBM

                                                          [論文まとめ] 「NewSQL」 の 「New」 の部分は一体何ですか - Qiita
                                                        • データは財産である LINE Data Platform室のSREが大切にしているミッション

                                                          LINEユーザーとビジネスの価値をつなぐためのSREとは、いったいどんなことをするのか。LINEの7つの領域から9名が登壇し、業務内容や体制、開発における課題、働く個々人のやりがいなどについて話します。奥田輔氏は、LINE Data PlatformのSREについて紹介しました。 LINEのData Platform室におけるSRE 奥田輔氏(以下、奥田):私からは、LINEのData Platform室におけるSREで、どういうチャレンジがあるのか、どういう仕事なのかを紹介します。よろしくお願いします。 まずは、自己紹介からです。Data Platform室のData Engineering1というチームで、エンジニアリングマネージャーをしている奥田と申します。2013年に、弊社のLINEに新卒入社です。もともとは、LINE GAMEのDBAをやっていました。そこから社内異動で、LINE

                                                            データは財産である LINE Data Platform室のSREが大切にしているミッション
                                                          • Treasure Data Company Announcement

                                                            Company Announcement: Treasure Data officially part of Softbank Vision Fund 2; Welcome Back Founding Leadership Team Company Announcement: Treasure Data officially part of Softbank Vision Fund 2; Welcome Back Founding Leadership Team Last modified: July 13, 2021 Treasure Data officially part of Softbank Vision Fund 2*; Welcome Back Founding Leadership Team We are thrilled to announce that Treasure

                                                              Treasure Data Company Announcement
                                                            • データウェアハウスとして使う Amazon Redshift について | MEDLEY Developer Portal

                                                              2019-07-01データウェアハウスとして使う Amazon Redshift についてはじめにこんにちは。開発本部の阪本です。 今回は私が社内勉強会(TechLunch)にて Amazon Redshift(以下 Redshift)についてお話した内容を紹介させていただきます。 Redshift とは概要Redshiftとは AWS サービスが提供しているデータウェアハウスで、高可用/高パフォーマンス/柔軟なスケーラビリティを実現しているのが特徴です。 競合としてはBigQueryやHadoop、また同じ AWS サービスではAmazon Athenaも同様の位置付けになると思います。 データベースとしての特徴Redshift の特徴として、列志向型データベースという点があります。 MySQL のようなリレーショナルデータベースはデータを行(レコード)単位で保持している事に対し、Red

                                                                データウェアハウスとして使う Amazon Redshift について | MEDLEY Developer Portal
                                                              • よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告

                                                                HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。 この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ

                                                                  よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告
                                                                • 【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO

                                                                  こんにちは!体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。 先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました! 思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。 また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。 なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました! これから 12 冠を目指したい!と思っている方や、短期間取得を目指す際の参考になれば幸いです! なぜ12冠を目指そうと思ったのか 何よりも AWS を利用した業務や、技術サポートに携わっているからです! その他にも、もう少し理由を並べてみたいと思います。 AWS の知識

                                                                    【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO
                                                                  • 少人数で大規模環境運用には監視運用の効率化は必須 Yahoo! JAPANの月間800億ページビューを支えるIaaS基盤の舞台裏

                                                                    Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。このセッションでは、Yahoo! JAPNNのインフラエンジニアの奥村氏と奥野氏が、2万台もの大規模IaaS環境ハイパーバイザーを、どのように構築・運用しているのか、そのノウハウを語ります。後半は実際の運用について奥野氏が話をしました。 運用編の紹介 奥野修平氏(以下、奥野):それでは運用編をお話しします。 まず私の自己紹介をさせてください。私は2014年にヤフー株式会社に新卒で入社しまして、プライベートクラウドに一貫して従事しています、奥野と申します。よろしくお願いします。 それでは運用編のアジェンダです。まず守りの運用として監視・アラート対応編で1つ。こちらは少ない人数でいかに大規模環境を運用するかのために工夫している点を何点か紹介いたします。もう1つは攻めの運用

                                                                      少人数で大規模環境運用には監視運用の効率化は必須 Yahoo! JAPANの月間800億ページビューを支えるIaaS基盤の舞台裏
                                                                    • 一言で言うと非常にエキサイティング LINEのDMP開発チームで大規模データを扱う楽しさ

                                                                      LINEでは、コミュニケーションアプリ「LINE」を軸に、広告、金融、AI、エンタメ・コンテンツ系サービスなど多様な事業を展開。それらのサービスの中でも、法人向け/開発者向けサービスの開発を担うエンジニアが、日々の業務内容や開発体制、働く環境などについて紹介しました。渡邉直樹氏は、DMP開発チームで大規模データを扱うことの魅力について話しました。 LINE DMPとはなにか 渡邉直樹氏:私からは、LINE DMPというサービスについて紹介いたします。最初に自己紹介を簡単にします。私は渡邉直樹と申します。先ほど発表にあったCRSっていうサービスと、これから紹介するLINE DMPを開発しているチームのマネージャーをしています。 けっこう社歴は長くて、今までBtoCのサービスを中心に開発してきましたが、ここ数年はBtoBのサービス開発に携わっています。趣味は書いてあるとおり、料理とスプラトゥー

                                                                        一言で言うと非常にエキサイティング LINEのDMP開発チームで大規模データを扱う楽しさ
                                                                      • Building a large-scale distributed storage system based on Raft

                                                                        Guest post by Edward Huang, Co-founder & CTO of PingCAP In recent years, building a large-scale distributed storage system has become a hot topic. Distributed consensus algorithms like Paxos and Raft are the focus of many technical articles. But those articles tend to be introductory, describing the basics of the algorithm and log replication. They seldom cover how to build a large-scale distribut

                                                                          Building a large-scale distributed storage system based on Raft
                                                                        • CKA受験体験記 - Qiita

                                                                          2019/9にCertified Kubernetes Administrator(CKA) 合格できました。 体験記を書くのは、3度目。体験記を書くのは、内省にも役に立つと思っています。 統計検定2級 国家資格キャリアコンサルタント で、今回の CKA。 3つは全然関係性がないものになってますが、それは私のキャリアに関係しています。。。 体験記は自身の内省にもなる。 *当然ですが、試験の詳しい内容は明かしていません。 *他の方と共通するような部分は短めに。 読者ターゲット 現場離れたエンジニアリングマネージャ 技術好きな中間管理職や役員 副業・兼業もしている多忙なエンジニア 多忙なテックリード、エバンジェリスト、アドボケイト 他の体験記の方々とは違いそうな、私の特徴的な部分をサマリーします。 ITインフラエンジニア育ちであるが、現在の主業はエンジニアリングマネージャ + テックリード +

                                                                            CKA受験体験記 - Qiita
                                                                          • [レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf | DevelopersIO

                                                                            [レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf 奈良県でリモートワーク中の玉井です。 9月8日〜9月9日の2日間、FUTURE DATA CONFERENCE 2020というオンラインイベントが開催されていました。今回、そのイベントの下記のウェビナーを受講したので、レポートします。 イベント全体の概要ですが、名前の通り、「データ分析(とそれに関するテクノロジー)の今後」について、多種多様な業界の方々が語るって感じのイベントのようです。 今回はその中の「The Modern Data Stack: Past, Present, and Future」というセッションについてレポートします。 ウェビナー情報 公式情報 ※本カンファレンスは、既に2021年分が開催済であり、ウェブサイトの内容も2021

                                                                              [レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf | DevelopersIO
                                                                            • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

                                                                              みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

                                                                                【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
                                                                              • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

                                                                                並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

                                                                                  並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
                                                                                • データエンジニアとは?仕事内容から年収、必要スキル、資格まで徹底解説 | AIdrops

                                                                                  データエンジニアとは?仕事内容から年収、必要スキル、資格まで徹底解説 データアナリティクスやAI技術の発展により、データサイエンスに取り組む企業が増加しました。それに伴い「データエンジニア」という職業が注目されています。データ処理システムの構築だけでなく、運用や機械学習などにも関わる職種です。要求されるスキルの幅は広いですが、将来的な需要が高く長期的なキャリア形成が可能な職種といえるでしょう。 今回の記事では、そんなデータエンジニアの仕事内容、気になる年収と給料、なるために必要なスキル、取得したい資格などを紹介します。 データエンジニアとは データエンジニアは、大規模なデータの活用を支える基盤構築と運用の専門職です。インフラ・データベース・開発などITエンジニアとしての基本スキルに加え、ビッグデータを扱うための分散処理やデータマネジメントに関するスキルが要求されます。 活躍する場所として機

                                                                                    データエンジニアとは?仕事内容から年収、必要スキル、資格まで徹底解説 | AIdrops