並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 60 件 / 60件

新着順 人気順

hadoopの検索結果41 - 60 件 / 60件

  • 枯れたはずのDWHが「クラウドDWH」で再び盛り上がる訳

    「Hadoop」の普及によって一時期“守勢”に立たされたはずの「DWH」が、「クラウドDWH」へと形を変えて再び関心を集めるようになった。背景には何があるのか。 生まれ続ける膨大なデータを蓄積し、確実かつ迅速に処理したい――。こうしたニーズに応える手段として、分散処理ソフトウェア「Apache Hadoop」は今や自然な選択肢となった。実はHadoopの普及でやや影を潜めていた技術が、あらためて脚光を浴びている。「DWH」(データウェアハウス)がそれだ。 従来型のデータ蓄積手段であるDWHは、Hadoopの盛り上がりとともに“守勢”に立たされた。それが「クラウドDWH」へと形を変え、あらためて関心を集めているという。クラウドDWH市場では、Amazon Web ServicesやMicrosoftなどの大手ベンダーに加え、Snowflakeなどの新興ベンダーも台頭しつつある。 “枯れた”技

      枯れたはずのDWHが「クラウドDWH」で再び盛り上がる訳
    • CloudFrontのアクセスログをS3シンボリックリンクを利用してAthanaで効率的に解析してみた。(Lambdaレス版) | DevelopersIO

      CloudFrontのアクセスログをS3シンボリックリンクを利用してAthanaで効率的に解析してみた。(Lambdaレス版) CloudFrontの標準のアクセスログ、Athenaで効率的な解析を実現するため、CloudShellを利用した簡単な加工を試みてみました。 CloudFront のアクセスログを S3への保存する設定のみを実施していた環境で、 直近のアクセスログを対象とした、ログ解析を行う必要がありました。 Athenaによるフルスキャンにより発生する S3、Athena費用を抑制するため、 CloudShellを利用して、調査対象のアクセスログを反映したシンボリックファイルを用意。 Athenaのパーティション投影に対応した形式でS3に設置し、解析する機会がありましたので紹介させて頂きます。 S3にフラットに配置してしまったログも大丈夫!シンボリックリンクを利用してスキャン

        CloudFrontのアクセスログをS3シンボリックリンクを利用してAthanaで効率的に解析してみた。(Lambdaレス版) | DevelopersIO
      • Data Engineer: Interview Questions

        Here is a list of common data engineering interview questions, with answers, which you may encounter for an interview as a data engineer. The questions during an interview for a data engineer aim to check not only the grasp of data systems and architectures but also a keen understanding of your technical prowess and problem-solving skills. This article lists essential interview questions and answe

          Data Engineer: Interview Questions
        • AWS Transfer Family 接続時のPermission Denied等のエラーに対して、AthenaでS3 アクセスログを分析してみた | DevelopersIO

          AWS Transfer Family 接続時のPermission Denied等のエラーに対して、AthenaでS3 アクセスログを分析してみた はじめに AWS Transfer Familyへの接続時に、Permission Deniedになる連絡を受けた際、S3のアクセスログからリクエストの詳細を調査してエラー解決することができますので、その手順をまとめました。 Transfer Familyでは、標準設定でCloudWatch Logsに以下のようにログを出力されます。 { "path": "/S3バケット名/test.py", "activity-type": "ERROR", "resource-arn": "arn:aws:transfer:ap-northeast-1:xxxx:server/s-aacfeafc8f2840b9a", "message": "Acces

            AWS Transfer Family 接続時のPermission Denied等のエラーに対して、AthenaでS3 アクセスログを分析してみた | DevelopersIO
          • クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年6月号 | DevelopersIO

            Redshift Provisioned(プロビジョニング済みクラスタ)のデフォルトの分離レベルがスナップショット分離(Snapshot isolation)に変更、EMR Serverless は I/O 負荷の高いワークロードのパフォーマンスを向上させるシャッフル最適化ディスクを導入されました。QuickSightは、RedshiftのGetClusterCredentialswithIAM のサポートを開始やテーブルでの複数列ソートが可能に! クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。 今月は、Redshift Provisioned(プロビジョニング済みクラスタ)のデフォルトの分離レベルが、スナップショット分離(Snapshot isolation)に変更になりました。EMR Serverless は、 I/O 負荷の

              クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年6月号 | DevelopersIO
            • 計算基盤チームの仕事紹介 - Preferred Networks Research & Development

              Preferred Networks 計算基盤担当VPの土井です。 ちょっと最近ばたばたしていて、あまり何をやっているか紹介できていませんでした。その結果「PFNって何やってるの?」と聞かれてなかなかお答えできない。またPFNで計算機をやっているといってもピンとこない、というお話も増えてきました。先日のJANOGに行ったメンバーからも、PFNが何をしているのかイマイチ知られていないと聞いて、冷や汗を流しております。 なので、チーム的に露出に力を入れることにしました。今後blogを、あるいはネタによってはQiitaなども含めて、シリーズ的に書いていければと思います。まずは、土井が担当している計算基盤領域およびその周辺について概観する記事を書かせて頂こうと思います。 端的に言うと、PFNはあまりオンプレインフラのイメージがないかもしれませんが、上から下までかなりがっつりやっていますし、こんな場

                計算基盤チームの仕事紹介 - Preferred Networks Research & Development
              • Dive deep into security management: The Data on EKS Platform | Amazon Web Services

                AWS Big Data Blog Dive deep into security management: The Data on EKS Platform The construction of big data applications based on open source software has become increasingly uncomplicated since the advent of projects like Data on EKS, an open source project from AWS to provide blueprints for building data and machine learning (ML) applications on Amazon Elastic Kubernetes Service (Amazon EKS). In

                  Dive deep into security management: The Data on EKS Platform | Amazon Web Services
                • Icebergテーブルの内部構造について - やっさんメモ

                  この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                    Icebergテーブルの内部構造について - やっさんメモ
                  • 達人出版会

                    [令和6年度]基本情報技術者 超効率の教科書+よく出る問題集 五十嵐 順子 徹底攻略 データベーススペシャリスト教科書 令和6年度 株式会社わくわくスタディワールド 瀬戸美月 著 徹底攻略AWS認定SysOpsアドミニストレーター - アソシエイト教科書&問題集[SOA-C02]対応 鮒田 文平, 長澤 美波, 日暮 拓也, 奥井 務, 渡辺 樹, 山下 千紗, 伊藤 翼 世界標準MIT教科書 アルゴリズムイントロダクション 第4版 第2巻 高度な設計と解析の手法・高度なデータ構造・グラフアルゴリズム Thomas H. Cormen, Charles E. Leiserson, Ronald L. … 問題解決の教科書  CITA式問題解決ワークブック 市岡 和之 はじめてのType-C電子工作 じがへるつ スッキリわかるJava入門 実践編 第4版 中山 清喬(著), 株式会社フレアリ

                      達人出版会
                    • プログラミングのためのBGMや環境音/Slackにプロジェクト管理機能が追加/Google、超高速に評価可能な式言語発表ほか、2024年6月の人気記事

                      プログラミングのためのBGMや環境音/Slackにプロジェクト管理機能が追加/Google、超高速に評価可能な式言語発表ほか、2024年6月の人気記事 ふだん仕事では画面の大きめな16インチのノートPCをデスクトップPC代わりに使っているのですが、これにモバイルディスプレイを加えて2画面にしたらもっと使いやすいだろうなと思って、ここしばらくモバイルディスプレイを探しているところです。 ただ、そもそもノートPCの画面が大きいので、もう1つ13インチとか15インチのモバイルディスプレイを並べるのはちょっと大きすぎる気がして、10インチくらいのコンパクトなものがあればなあと思っているのですが、そのくらいのサイズのものはあまり品揃えがないんですよね。もう少しいろいろ調べてみようかなと思っています。 さて、6月が終わりましたので人気記事ランキングを振り返ってみましょう。 1位から3位 1位 プログラ

                        プログラミングのためのBGMや環境音/Slackにプロジェクト管理機能が追加/Google、超高速に評価可能な式言語発表ほか、2024年6月の人気記事
                      • Why CSV is still king

                        Report issues, suggest features or give any general feedback. Thank you in advance! In the world of data, CSV is the cockroach of file formats. It's simple, resilient, and seemingly impossible to kill off. While flashier formats have come and gone, CSV quietly reigns supreme in the data processing kingdom. But how the hell did this happen? Let's dive into the fascinating history of this accidental

                        • GCP認定Professional Data Engineer受験対策 - Qiita

                          はじめに 取得してからだいぶ経っていますが、Google Cloud認定資格の中では、Professional Cloud Architectに次いで、Professional Data Engineerを受験する方が多いのかなと思い要点をまとめてみました。 本記事を読んだだけで合格できる、ということを保証するものではありませんので、ご了承ください。 もくじ Professional Data Engineerについて 要点 勉強法 まとめ Professional Data Engineerについて 本資格ではデータ処理システムの設計や構築、運用に関することが問われます。問題は50~60問の選択式であり、試験時間は2時間、受験費用は$200 (税別) です。 試験ページでは、以下のことが評価されるとあります。 データ処理システムの設計 機械学習モデルの運用化 ソリューションの品質の確保

                            GCP認定Professional Data Engineer受験対策 - Qiita
                          • AWS入門ブログリレー2024〜AWS Glue編〜 | DevelopersIO

                            ますます多機能となりAWSにおけるデータ分析を支えてくれているAWS Glueの2024年時点の機能について、入門におすすめのものをご紹介します。 当エントリは弊社AWS事業本部による『AWS 入門ブログリレー 2024』の42日目のエントリです。 このブログリレーの企画は、普段 AWS サービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、 今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWS をこれから学ぼう!という方にとっては文字通りの入門記事として、またすでに AWS を活用されている方にとっても AWS サービスの再発見や 2024 年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。今回のテーマ

                              AWS入門ブログリレー2024〜AWS Glue編〜 | DevelopersIO
                            • Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部

                              こんにちは、T.Y.です。並列分散処理のフレームワークであるSpark上で自然言語処理(Natural Language Processing, NLP)の様々なタスクを行いたい、特に、BERTやGPTなどのTransformerモデルの学習や推論を試したいという動機のもとでSpark NLPについて調べた内容をこちらのブログで解説します。環境構築の過程でSparkからGPUを使用するための手順や、SparkとGPUを利用する他の機械学習フレームワークについても紹介したいと思います。 目次 Summary クラスタ構成 Spark Rapids XGBoost4j-Spark-GPU Spark NLP ChatGPTとテストしてみる Fine-tuningについて Sample Model Spark NLP Displayによる可視化 Synapse ML 最後に 1. Summary

                                Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部
                              • Google Cloud Next '24 in Las Vegas 速報レポート(キーノート・1日目) - G-gen Tech Blog

                                G-gen の杉村です。当記事では、Google Cloud Next '24 in Las Vegas のキーノート(1日目)に関する速報レポートをお届けします。セッションレポートなど、Google Cloud Next '24 の関連記事は Google Cloud Next '24 カテゴリの記事一覧からご覧いただけます。 Google Cloud Next '24 in Las Vegas 概要 AI Hypercomputer Google Axion Gemini 1.5 Pro 等の生成 AI モデル Vertex AI でのグラウンディング「Enterprise Truth」 Vertex AI Agent Builder プロンプト開発と精度計測の補助 生成 AI による開発補助 生成 AI によるデータ活用 生成 AI とセキュリティ Google Workspace

                                  Google Cloud Next '24 in Las Vegas 速報レポート(キーノート・1日目) - G-gen Tech Blog
                                • アーキテクトとして活躍、高安氏が30年の業界経験から見出した「すごいエンジニア」を育む組織の秘訣とは?

                                  エンジニアとしていい仕事をするために、そして成長するためにはビジネスに対する理解も進める必要がある。とはいえ、技術とビジネスの二刀流を実現するのはなかなか大変だ。30年にわたり、「テクノロジーとコンサルティングの融合」に取り組んできたビッグツリーテクノロジー&コンサルティング(以下、BTC)のCTOである高安厚思氏が、業界経験で出会った「すごいエンジニア」との対話を紐解きながら、エンジニアの成長について語った。 高安氏が30年の業界経験から考える「すごいエンジニア」とは? 30年にわたり、ソフトウェアエンジニアリングを適用したシステム開発やコンサルティングに携わってきた高安氏。アーキテクトとしても活躍し、『システム設計の謎を解く』(SBクリエイティブ)など、著書も多数持つ。同氏がCTOを務めるBTCでは、チームとして仕事を進めるに当たり「テクノロジーとコンサルティングの融合」が不可欠と考え

                                    アーキテクトとして活躍、高安氏が30年の業界経験から見出した「すごいエンジニア」を育む組織の秘訣とは?
                                  • 【新機能】 Vertex AI Agent Builder で生成 AI エージェントをノーコードで構築とデプロイが可能に #GoogleCloudNext | DevelopersIO

                                    ウィスキー、シガー、パイプをこよなく愛する大栗です。 いよいよ Google Cloud Next '24 が開催されます。これから Keynote がありますが、その前にブログで多数の発表がされています。その中で目玉機能と感じた Vertex AI Agent Builder で生成AIエージェントをノーコードで構築できる機能が出てきたためレポートしてみます。 Announcing Vertex AI Agent Builder: Helping developers easily build and deploy gen AI experiences また、帰国して直ぐに Next '24 の最新情報をお届けする振り返り勉強会も開催します。是非現地で物理参加を!(オンライン配信も予定してます) 【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返

                                      【新機能】 Vertex AI Agent Builder で生成 AI エージェントをノーコードで構築とデプロイが可能に #GoogleCloudNext | DevelopersIO
                                    • 分散処理OSSへのコントリビューション in 2023 - おくみん公式ブログ

                                      Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。 この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレンダー | Advent Calendar 2023 - Qiita』24日目として執筆しました。若干遅れて申し訳ございません。 データ不整合の解消 ネストしたCTEをマテリアライズするとデータが消失する問題 LIMIT OFFSET Pushdownのバグ修正 パフォーマンス改善 Auto Reduce Parallelismの改善 Fair Routingの開発 ジェネリックなAM or TaskレベルのフックをTezに追加 UDTFの出力に

                                        分散処理OSSへのコントリビューション in 2023 - おくみん公式ブログ
                                      • How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps | Amazon Web Services

                                        AWS Machine Learning Blog How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps This post is co-written with HyeKyung Yang, Jieun Lim, and SeungBum Shim from LotteON. LotteON aims to be a platform that not only sells products, but also provides a personalized recommendation experience tailored to your preferred lifestyle. LotteON operates various specialty stores,

                                          How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps | Amazon Web Services
                                        • Amazon AthenaからRDS for PostgreSQLとAmazon S3に対する横串クエリ(Federated Query)を実行してみた | DevelopersIO

                                          接続文字列は以下のような形となります。 一般的なJDBC接続文字列ですが最近だとライブラリ等にラップされているせいで見ることも少ないので意外と忘れがちな部分ではあります。 postgres://jdbc:postgresql://{{RDSのエンドポイント}}:5432/{{接続先DB名}}?secret=${Secretsの名前} 認証情報はSecrets Manager側に以下の形式で保存されていれば利用する際に良い感じに展開してくれます。 { "username": "{{接続ユーザ名}}", "password": "{{接続ユーザーパスワード}}"} パラメータの情報に関する情報は作成上の説明文の記載に加え情報は以下にも記載がありますのでこちらをご参照ください。 ここまでで正常に設定できていればデータコネクタの部分で以下ように接続先のスキーマ情報が確認できます。 ここまでで各種設

                                            Amazon AthenaからRDS for PostgreSQLとAmazon S3に対する横串クエリ(Federated Query)を実行してみた | DevelopersIO