並び順

ブックマーク数

期間指定

  • から
  • まで

561 - 600 件 / 697件

新着順 人気順

hadoopの検索結果561 - 600 件 / 697件

  • 今後はMulti-AZ構成に移行して、データセンターを拡張させる ユーザー数・約2億人のアプリに関われるLINEのサービスネットワーク1チーム

    LINEのITサービスセンターの中から、LINEの大規模なネットワークを支えるネットワークエンジニアのチームや仕事内容について紹介する「LINE ネットワークエンジニア採用説明会」。ここでサービスネットワークチーム マネージャーの鈴木氏が登壇。サービスネットワーク1チームについて紹介します。 自己紹介 鈴木雄一郎氏(以下、鈴木):私からはネットワークエンジニア サービスネットワークチームの業務内容について説明したいと思います。よろしくお願いします。 私はネットワーク室サービスネットワークチームでマネージャーをしている鈴木と申します。趣味はテニスと晩酌と子育てです。テニスは最近あまりできていないです。 過去の職歴です。2019年にLINEに入社する前は、通信キャリアで法人向けやモバイル用のITバックボーンの設計・構築、あとはホワイトボックススイッチ用のOS開発、モバイルコア、LTEのEPC(

      今後はMulti-AZ構成に移行して、データセンターを拡張させる ユーザー数・約2億人のアプリに関われるLINEのサービスネットワーク1チーム
    • Apache NiFi 2021年の最新動向とヤフーでの活用スタイル

      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog ヤフーで Apache NiFi を利用したデータ連携用プラットフォームの開発運用を担当している寺田です。 本記事では、ヤフーでの Apache NiFi の活用スタイルと OSS コミュニティとの関わり方、プロダクトの最新動向を紹介します。アドベントカレンダーらしく2021年のまとめを意識して今年の動向を中心にまとめました。 ヤフーでの Apache NiFi の活用 Apache NiFi とは Apache NiFi とは、データを扱う多種多様なシステム間でデータ連携するためのデータフローをグラフィカルに作成・管理し、実行を自動化できるソフトウェアです。Apache Software Foundation (ASF) で O

        Apache NiFi 2021年の最新動向とヤフーでの活用スタイル
      • Apache Sparkのデータ処理の流れをなんとなく理解する - Qiita

        はじめに (株)日立製作所 OSSソリューションセンタの伊藤雅博です。この投稿では、Apache Sparkのデータ処理の流れを簡単に説明します。 Apache Sparkとは Sparkはインメモリで処理を行う並列分散処理フレームワークであり、Hadoop(YARN)やMesos、Kubernetesなどのクラスタ上で動作します。Sparkでは処理内容をScala、Java、PythonまたはSQLで記述し、これをSparkアプリケーションとしてクラスタ上で実行します。 この投稿では、YARNクラスタ上で動作するSparkアプリケーションを例として、その処理の流れを簡単に説明します。 Sparkアプリケーションの例 今回の説明で使用するSparkアプリケーションでは、単語が改行区切りで記載された以下のようなテキストファイルから、各単語の出現回数を集計します。

          Apache Sparkのデータ処理の流れをなんとなく理解する - Qiita
        • Amazon AthenaのPartition Projectionを設定したGlueテーブルをCloudFormationで作成してみた | DevelopersIO

          Amazon AthenaのPartition Projectionを設定したGlueテーブルをCloudFormationで作成してみた こんにちは、CX事業本部の若槻です。 Amazon AthenaではPartition Projectionを使用することにより、パーティション化されたデータソースへのクエリ処理を高速化したり、パーティション管理を自動化したりすることができます。 Partition Projection with Amazon Athena - Amazon Athena 今回は、Amazon AthenaのPartition Projectionを設定したGlueテーブルをCloudFormationで作成してみました。 やってみた 具体的には、AWSの下記のドキュメントで紹介されている、Amazon Kinesis Data Firehoseが作成する/yyyy/

            Amazon AthenaのPartition Projectionを設定したGlueテーブルをCloudFormationで作成してみた | DevelopersIO
          • The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io

            Jean-Yves Stephan Senior Product Manager, Ocean for Apache Spark Reading Time: 7 minutes‍Apache Spark is an open-source distributed computing framework. In a few lines of code (in Scala, Python, SQL, or R), data scientists or engineers define applications that can process large amounts of data, Spark taking care of parallelizing the work across a cluster of machines. Spark itself doesn’t manage th

              The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io
            • Open Invention Network、exFATとAndroid ASOP 10を保護下へ | OSDN Magazine

              Linux関連の特許保護のためのコンソーシアムOpen Invention Network(OIN)は10月13日(米国時間)、「Linux System Definition」を改訂し、Android AOSP 10、exFATなどのオープンソースプロジェクトを保護下に加えたことを発表した。これにより、参加企業に対し、合計で3300以上のパッケージを訴訟リスクから保護する。 Open Invention Network(OIN)は2005年、Linuxに対する特許訴訟から企業を保護する目的で設立されたコンソーシアム。Google(米Alphabet傘下)、米IBM、中国TenCent、ソニー、楽天などが参加、2018年には米Microsoftも加わった。合計で3300以上の企業や団体がメンバーとなっている。OINは「Linux System Definition」として、Linux関連の

                Open Invention Network、exFATとAndroid ASOP 10を保護下へ | OSDN Magazine
              • Pythonで学ぶ!データ分析プロジェクトのスキルと学習手法ガイド - Qiita

                はじめに この記事では、Python初学者がデータ分析プロジェクトに取り組む際に必要な技術的なスキルと具体的な手法を学ぶべき順に紹介しています。 データ分析プロジェクトは、データを分析してインサイトを獲得し、具体的なアクションに繋がる施策提案とその効果検証を目的としたプロジェクト全般を指します。簡易な集計可視化で完結する場合もあれば、機械学習を用いて要因や特徴を分析したり、数理モデルを構築してビジネス構造の理解を深めたりします。得られたインサイトに基づいてビジネス改善のアクションを実施し、その施策に効果があったかを統計的な手段を用いて判断します。アウトプットの形としては、基本的には分析レポートがアウトプットとなり、その結果をもとに既存のビジネスを運用している部門と協力しながら施策を実行していきます。 データ分析に必要なスキルと学習手法 データ分析プロジェクトに必要な技術的なスキルとそれぞれ

                  Pythonで学ぶ!データ分析プロジェクトのスキルと学習手法ガイド - Qiita
                • [AWS Glue]SparkとPython Shellのジョブを組み合わせたETLフローを作ってみた | DevelopersIO

                  こんにちは、CX事業本部の若槻です。 AWS Glueは、データ変換処理(ETL)をサーバーレスで実装できるAWSサービスです。 AWS Glue - Managed ETL Service - Amazon Web Services 今回は、AWS GlueでSparkとPython Shellのジョブを組み合わせたETLフローを作ってみました。 2つのジョブタイプの違い AWS GlueのジョブにはSparkとPython Shellの2つのジョブタイプがあります。 Sparkタイプは、Apache Sparkを使用したデータの分散処理が可能なため、大規模データのETL処理に向いています。 Python Shellタイプは、Python3.6(または2.7)環境を使用したスクリプトの実行が可能なため、Sparkタイプを使う程ではないがGlueジョブとして実行させたい処理に向いています。

                    [AWS Glue]SparkとPython Shellのジョブを組み合わせたETLフローを作ってみた | DevelopersIO
                  • G検定に向けたチートシート 当日用のカンペ - 社畜の馬小屋

                    こんばんは、へるもです。 いよいよG検定ですね! 圧倒的な暗記項目の多さにやる気を失っていたのですが、インターネットで調べてもよいという特長を活かして、カンニングペーパーを作ることにしました。 ※取得後に思ったこと herumo.hatenablog.com herumo.hatenablog.com herumo.hatenablog.com チートシート 考えることはみんな同じようで、ネットで調べると幾つか出てきますね。「G検定カンペ、まとめ、チートシート」とかが検索ワードとして強いようです。 ただ、いくつのページを開いて検索するというのは不合理ですし、次の項目で紹介するページを参考にして、ここにないものをまとめる、といった形で作成しました。 これだけ書いても足りないんだろうな、と思うとつらいのですが、それでもないよりマシです。 自分用のメモなので間違っていたらごめんなさい。何かあれば

                      G検定に向けたチートシート 当日用のカンペ - 社畜の馬小屋
                    • Apache Spark UIからGlueのジョブ結果を確認する | Amazon Web Services

                      Amazon Web Services ブログ Apache Spark UIからGlueのジョブ結果を確認する (アップデート)2019年11月26日、Dockerでのローカルアクセスに関する内容を追加しました。 2019年9月、Glueのジョブ結果を監視・トラブルシューティングできるApache Spark UI(以下、Spark UI)が利用できるようになりました。Spark UIは、Glue ETL ジョブ実行のさまざまなステージを表す Directed Acyclic Graph (DAG(有向非循環グラフ)) をウェブインターフェイスによって可視化することができます。また、Spark SQL クエリプランを分析し、実行中や終了した Spark executor のイベントタイムラインを確認します。Spark UIはGlue ETL ジョブおよび Glue 開発エンドポイントの両

                        Apache Spark UIからGlueのジョブ結果を確認する | Amazon Web Services
                      • Amazon QuickSightでAthenaからのデータ取得が権限エラーで失敗するので対処してみた | DevelopersIO

                        こんにちは、CX事業本部の若槻です。 今回は、Amazon QuickSightからAthenaに接続してデータを取得しようとすると権限エラーで失敗してしまったため対処方法を確認してみました。 データソースとなるAthenaの環境 Amazon QuickSightからデータソースとして接続しようとしたAthenaの環境は次のように作成しました。 データベース作成 CREATE DATABASE mydb テーブル作成 CREATE EXTERNAL TABLE IF NOT EXISTS mydb.mytable ( rank string, name string, attribute string ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES (

                          Amazon QuickSightでAthenaからのデータ取得が権限エラーで失敗するので対処してみた | DevelopersIO
                        • 【DMM×ALIS】気鋭のCTO2名と一緒にDXの在り方を見直そう。(後編) - 官民共創メディアPublingual

                          3000人の社員を抱え、”中”からDXを進めるDMM.com CTOの松本勇気さん、国内トップ企業のDX支援をしているテックベンチャーで”外”からDXを進めるALIS CTOの石井壮太さん。 エンジニアであり、経営者である気鋭のCTOであるふたりからDXとは『なにか』を見直していく。(前編はコチラ) DXについていける企業とそうでない企業は、何が違うのか?ALIS石井さん(以下、石井):2000年代にはついていけていた企業が、2010年代にはついていけない企業になっている、、、ということが起きているようにも感じているのですが、松本さんはどう思いますか。 DMM松本さん(以下、松本):その問題は「エラスティック(伸縮自在、融通が効く)」が重要なキーワードだと思います。 2000年代は、データセンターにサーバを詰めて、5-10年ぐらいの減価償却も考えながらシステムを構築していく状況でした。 一

                            【DMM×ALIS】気鋭のCTO2名と一緒にDXの在り方を見直そう。(後編) - 官民共創メディアPublingual
                          • Dive deep into security management: The Data on EKS Platform | Amazon Web Services

                            AWS Big Data Blog Dive deep into security management: The Data on EKS Platform The construction of big data applications based on open source software has become increasingly uncomplicated since the advent of projects like Data on EKS, an open source project from AWS to provide blueprints for building data and machine learning (ML) applications on Amazon Elastic Kubernetes Service (Amazon EKS). In

                              Dive deep into security management: The Data on EKS Platform | Amazon Web Services
                            • HTAPキャッチフレーズの背景 • masu-mi's blog(Dirty Cache)

                              少し前にちょっとだけ出た HTAP というバズらなかったバズワード。 MariaDBは押している(?)。 HTAP はインメモリデータベースよりも曖昧で産業よりな言葉だ。 あいまいな言葉だけどインメモリデータベースより広く 新しいデータベース を指す用語なので今回は使ってみる。 HTAP の目標と関連実装の雰囲気をSIGMOD'17 のチュートリアルから知れる。 学術的な整理ではないし非難も多いけど、いくつかの実装へリファレンスがあり勉強のとっかかりになった。 今回は HTAP の一応の目標や出てきた背景と関連したインメモリデータベースとかの列挙をしてみる。 HTAPの背景 HTAP はラムダアーキテクチャから進歩するぞ!的なスローガンになっている。 ラムダアーキテクチャはApache StormのNathan Marzがデータを処理する流れについて提案したアーキテクチャ。 これはデータ処

                              • Federated queries for open source files now available | Google Cloud Blog

                                Keep Parquet and ORC from the data graveyard with new BigQuery features Parquet and ORC are popular columnar open source formats for large-scale data analytics. As you make your move to the cloud, you may want to use the power of BigQuery to analyze data stored in these formats. Choosing between keeping these files in Cloud Storage vs. loading your data into BigQuery can be a difficult decision, l

                                  Federated queries for open source files now available | Google Cloud Blog
                                • 軽めの集計操作をS3+Athenaで完結させてみる | DevelopersIO

                                  はじめに データ集計にAthenaを用いる場合、S3にアップしたファイルをGlueでデータベースとして作成 + Athenaからクエリをかける というやり方がありますが、データ量自体がそこまで大きくなかったり、手軽く実施したい場合に直接AthenaでS3のデータを元にテーブルを作成する手段もあります。 Amazon S3 のテーブルの場所 - Amazon Athena 公式ドキュメントにも詳細は記載されていますが、実際にやってみた内容を元に手順としてみました。 S3にファイルをアップする ファイルアップ用のbucketを追加します。 % aws s3api create-bucket --bucket BUCKET-NAME --region ap-northeast-1 --create-bucket-configuration LocationConstraint=ap-northe

                                    軽めの集計操作をS3+Athenaで完結させてみる | DevelopersIO
                                  • Icebergテーブルの内部構造について - やっさんメモ

                                    この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                                      Icebergテーブルの内部構造について - やっさんメモ
                                    • Dive deep into AWS Glue 4.0 for Apache Spark | Amazon Web Services

                                      AWS Big Data Blog Dive deep into AWS Glue 4.0 for Apache Spark Jul 2023: This post was reviewed and updated with Glue 4.0 support in AWS Glue Studio notebook and interactive sessions. Deriving insight from data is hard. It’s even harder when your organization is dealing with silos that impede data access across different data stores. Seamless data integration is a key requirement in a modern data

                                        Dive deep into AWS Glue 4.0 for Apache Spark | Amazon Web Services
                                      • GCP環境にCloudera Altus Directorを入れてみた話 - MicroAd Developers Blog

                                        Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレンダー | Advent Calendar 2019 - Qiita の 2日目(12/2)の記事になります! qiita.com インフラエンジニアのN村です。子育て中につき時短で勤務中です。 今日は、育休開け早々にGCP環境にCloudera Altus Directorを導入した時の話をします。 なぜCloudera Altus Directorを? なぜGCPに? 前提 導入ステップ Directorでのデプロイ作業のなかで出てくる用語 「Environment」 「Deployment」と「Cluster」 「Instance Template」 悩んだ点 プリエンプティブルVMの使用 スペックについて Clouderaのドキュメントについて 良かったこと 最後に

                                          GCP環境にCloudera Altus Directorを入れてみた話 - MicroAd Developers Blog
                                        • Amazon EMR 再入門 - Qiita

                                          改めてAmazon EMRを触った際の備忘録 以下のSpark ETLのWorkshop触ってのポイントまとめ https://emr-etl.workshop.aws/spark_etl/steps.html 対応フレームワーク Hadoop、Spark、Presto、Hive、Flink などのビッグデータ処理フレームワークやクエリエンジンのほか、TensorFlow、MXNet、Mahout などの機械学習系、Jupyter、Zeppelinなどのノートブックなどなど様々 EMR クラスタデプロイパターン オプションは大きく分けて3つ [1] EMR on EC2 上記豊富なフレームワークから選べる標準的な使い方 基本はマスターノード・コアノード ・タスクノードで構成 ノードタイプを固定するUniformインスタンスグループと、スポットインスタンスを組み合わせてコスト最適化戦略が組め

                                            Amazon EMR 再入門 - Qiita
                                          • 7 Best Self-Hosted S3-Compatible Object Storage Software

                                            Our articles are written by humans. We test products to ensure quality and value. While we might earn commissions, which help us to research and write, this never affects our product reviews and recommendations. Data drives the online businesses. Isn’t it? The data can be images, audio, videos, and other documents and files. And the thing is, data keeps on increasing. It means data storage can bec

                                              7 Best Self-Hosted S3-Compatible Object Storage Software
                                            • Athenaでパーティションを楽に作成する方法 - なになれ

                                              以前にAthenaの記事を投稿した時にパーティションの作り方として、Lambda関数からAthenaのクエリを実行する方法を紹介しました。 hi1280.hatenablog.com このやり方よりも簡単にパーティションを作成する方法を今回は紹介します。 内容としては、パーティション射影という機能を使います。 docs.aws.amazon.com こちらを使うと毎回パーティションを作る処理を実行することなく、自動的にパーティションを作ることが可能になります。 セットアップ パーティション射影の機能を使うには、テーブルを作成するときに特別な設定を行う必要があります。 今回はALBのアクセスログに合わせたテーブルを作成することを題材にします。 テーブルを作成するクエリは以下のとおりです。 CREATE EXTERNAL TABLE `alb_logs_partition_projection

                                                Athenaでパーティションを楽に作成する方法 - なになれ
                                              • Google Meetで背景変更するならSnap Cameraがおすすめ!設定手順も解説 | 株式会社トップゲート

                                                削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                  Google Meetで背景変更するならSnap Cameraがおすすめ!設定手順も解説 | 株式会社トップゲート
                                                • Apache Hadoop のデータを BigQuery で分析するための移行手順

                                                  この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータ ウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。(個人的な意見ですが)オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンス チューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が

                                                    Apache Hadoop のデータを BigQuery で分析するための移行手順
                                                  • テクノロジースペシャリスト ※ギグパートナー - キャリア - 採用情報 - ヤフー株式会社

                                                    高い技術力と専門性を駆使し、次の当たり前を創る 業務内容 ヤフーは2018年度から「第三の創業期」と位置付け、マルチビッグデータを生かした事業モデルを展開する「データドリブンカンパニー」への変革を目指し、積極的に成長投資を行ってきました。 現在はコマースとメディアという異なる事業領域において、eコマース、メディア、決済を中心とした100を超えるサービスを展開しています。 多様なサービスから得られる豊富なデータは、ヤフーならではのサービスを創り出すための重要な競争優位性です。 本職種では、テクノロジーの力でサービス一つ一つの強化を図ることはもとより、各サービスから得られるデータを横断的に活用することで、利用者一人ひとりに最適化されたサービスを提供し、さらに質の高い利用者体験の提供を目指していただきます。 インターネットの未来、日本の未来を創るために、高い専門性と技術力をいかして新しいシナジー

                                                      テクノロジースペシャリスト ※ギグパートナー - キャリア - 採用情報 - ヤフー株式会社
                                                    • Amazon EMR で Dr. Elephant と Sparklens を使って、Hadoop と Spark のパフォーマンスを調整する | Amazon Web Services

                                                      Amazon Web Services ブログ Amazon EMR で Dr. Elephant と Sparklens を使って、Hadoop と Spark のパフォーマンスを調整する  データエンジニアや ETL 開発者はさまざまなパラメータを使用しながら、かなりの時間を費やして Apache Spark ジョブを実行および調整し、パフォーマンスの評価を行うことがよくありますが、これは簡単ではなく、時間のかかる作業です。Dr.Elephant と Sparklens はワークロードをモニタリングしたり、推奨する変更を提案することで、Spark や Hive のアプリケーションの調整を支援し、必要とされるエグゼキューターノード、コアノード、ドライバーメモリおよび Hive (Tez または MapReduce) ジョブといったパフォーマンスパラメータをマッパー、レデューサー、メモリ

                                                        Amazon EMR で Dr. Elephant と Sparklens を使って、Hadoop と Spark のパフォーマンスを調整する | Amazon Web Services
                                                      • Data processing options for AI/ML | Amazon Web Services

                                                        AWS Machine Learning Blog Data processing options for AI/ML This blog post was reviewed and updated June, 2022 to include new features that have been added to the Data processing such as Amazon SageMaker Studio and EMR integration. Training an accurate machine learning (ML) model requires many different steps, but none are potentially more important than data processing. Examples of processing ste

                                                          Data processing options for AI/ML | Amazon Web Services
                                                        • Amazon AthenaでQuery Result Reuse(クエリ結果の再利用)が使えるようになりました | DevelopersIO

                                                          こんにちは、CX事業本部 IoT事業部の若槻です。 このたびのアップデートにより、Amazon AthenaでQuery Result Reuse(クエリ結果の再利用)が使えるようになりました。 Amazon Athena announces Query Result Reuse to accelerate queries Query Result Reuseを使うと、前回に実行したクエリの結果がキャッシュされ、次回に同じクエリを実行(繰り返しクエリ)した際にキャッシュからクエリ結果が再利用されるようになります。これにより繰り返しクエリの実行が最大5倍速くなり、クエリパフォーマンスが大幅に上がるため、インタラクティブな分析を行う場面などでユーザーの生産性の向上が期待できるとのことです。 使ってみた 準備 事前の環境作成を行います。 まず、Query Result Reuseはversion

                                                            Amazon AthenaでQuery Result Reuse(クエリ結果の再利用)が使えるようになりました | DevelopersIO
                                                          • Dockerを使ったElasticsearchの構築 - Qiita

                                                            はじめに 日頃は,土木分野をターゲットとしたAIの応用研究をしているのですが,隣の課から 「数千万のテキストファイルがあるのだけど,ファイル数が多すぎて検索スピードが遅いのようね.なんとかならない?」との相談があった. 昔,研究でHadoopやHDFSを使った経験あるけどGISを対象としていたし,そもそもHadoopってバッチ処理じゃん!という認識が強いので,全文検索に特化した良いものないかと調査していたらElasticsearchに出会った(今更感イッパイ). 試しに触ってみるために,まずはElasticsearchの構築をしてみようと思う. ただ,docker-composeの記載方法を完全に忘れてしまったため,構築方法は分割して投稿する...(オッサンになると記憶力が...) ということで,今回はElasticsearchのDockerイメージ作成まで. 参考にさせて頂いたサイト こ

                                                              Dockerを使ったElasticsearchの構築 - Qiita
                                                            • Balthazar – Text processing in the shell

                                                              Table of Contents cat head tail wc grep cut paste sort uniq awk tr fold sed Real-life examples Going further: for loops and xargs Summary Going further Text processing in the shell One of the things that makes the shell an invaluable tool is the amount of available text processing commands, and the ability to easily pipe them into each other to build complex text processing workflows. These comman

                                                                Balthazar – Text processing in the shell
                                                              • The Self-Service Data Roadmap について - イクジニアブログ

                                                                この記事は、datatech-jp Advent Calendar 2021の7日目の記事となります。 The Self-Service Data Roadmapという本がとても評判良さそうで、読んでみたいけど英語版しかないので1人で読むのは厳しいなぁ・・・って思っていたところ、Twitterから発展してあれよあれよと輪読会が開催されることになりました。 amzn.to 輪読会は現在はdatatech-jpというコミュニティに発展をしています。 詳細は@syou6162さんがブログに書いてくださっているのでこちらを参考にしてください。 www.yasuhisay.info The Self-Service Data Roadmapの輪読会で私が担当した章は最初のIntroだったので、この本の全体感をここでは説明させてもらいます。 それぞの章の細かい内容は別の日のAdventCalendar

                                                                  The Self-Service Data Roadmap について - イクジニアブログ
                                                                • How Drop used the Amazon EMR runtime for Apache Spark to halve costs and get results 5.4 times faster | Amazon Web Services

                                                                  AWS Big Data Blog How Drop used the Amazon EMR runtime for Apache Spark to halve costs and get results 5.4 times faster February 2022 update – When this Blog post was published in June 2020 AWS Glue V1 offered an average starting time of 10 minutes. In September 2020 Glue V2 was released offering 10X faster start times. Because of this the part of this blog post that compares the starting times be

                                                                    How Drop used the Amazon EMR runtime for Apache Spark to halve costs and get results 5.4 times faster | Amazon Web Services
                                                                  • 「Teradata Vantage」がGCPに対応--3大クラウドで利用可能に

                                                                    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Teradataは10月22日、米国コロラド州デンバーで開催のプライベートイベント「Teradata Universe 2019」で、Google Cloudとの協業を発表した。既存のAmazon Web Services(AWS)、Microsoft Azureに加え、Google Cloud Platformでデータ分析基盤「Teradata Vantage」が利用可能になる。 Teradata Vantageは、Teradata DatabaseやAsterの技術を統合したソリューションとなる。分析機能の核に当たるTeradata SQL Engineや、180以上の事前構築済み・分析関数でデータ加工から可視化まで行うGraph

                                                                      「Teradata Vantage」がGCPに対応--3大クラウドで利用可能に
                                                                    • [AWS Glue]S3とDynamoDBから取得したデータを結合(Join)するジョブを作ってみた | DevelopersIO

                                                                      こんにちは、CX事業本部の若槻です。 AWSのETLサービスであるAWS Glueでは、Amazon S3、Amazon Redshift、Amazon DynamoDBなど様々なサービスにデータソース/ターゲットとして接続することができます。 Connection Types and Options for ETL in AWS Glue - AWS Glue 今回は、AWS GlueでS3とDynamoDBから取得したデータを結合(Join)するジョブを作ってみました。 作ってみた 以下のような構成の、デバイスからIoT Core経由で送信される生データ(devices_raw_data)と、DynamoDBにて定義したデバイステーブル(devices)のデータを、GlueジョブでデバイスIDを元にして結合して分析用データ(devices_integrated_data)を作成する仕組

                                                                        [AWS Glue]S3とDynamoDBから取得したデータを結合(Join)するジョブを作ってみた | DevelopersIO
                                                                      • AWS Step Functions および AWS Glue を使用した Amazon Redshift ベースの ETL ワークフローのオーケストレーション | Amazon Web Services

                                                                        Amazon Web Services ブログ AWS Step Functions および AWS Glue を使用した Amazon Redshift ベースの ETL ワークフローのオーケストレーション  Amazon Redshift は、ペタバイト規模の完全マネージド型クラウドデータウェアハウスサービスで、現在お使いのものと同じ SQL ベースのツールとビジネスインテリジェンスアプリケーションを使用した迅速なクエリパフォーマンスを提供します。お客様の多くは、既存の SQL ベースのスクリプトを素早く移行するために既存の SQL 開発者スキルセットを使用する ETL (抽出、変換、ロード) エンジンとして Amazon Redshift を利用しておられると共に、Amazon Redshift が完全に ACID 対応であることから、ソースデータシステムからの変更データを統合する

                                                                          AWS Step Functions および AWS Glue を使用した Amazon Redshift ベースの ETL ワークフローのオーケストレーション | Amazon Web Services
                                                                        • 【GoogleCloud 認定資格】Associate Cloud Engineer の取得 - Qiita

                                                                          はじめに Goog Cloudのプロダクトを体系的に学ぶ目的として、Associate Cloud Engineer の試験項目を学習しました。その後、学習後に同試験を受けてみたところ、1度で合格できましたので試験までにやったことをまとめておきます。 【追記】 こちらの試験のあと、「Professional Data Engineer」につきましても取得できましたので下記で記載しています。 【GoogleCloud 認定資格】Professional Data Engineer の取得 - Qiita このドキュメントの使いみち 下記にあてはまる方であれば、多少は参考になるかもしれません。 Google Cloudについて体系的に学びたいと考えている方 「Associate Cloud Engineer」の資格取得を考えている方 前提条件 このドキュメントは、資格取得した2021年11月の

                                                                            【GoogleCloud 認定資格】Associate Cloud Engineer の取得 - Qiita
                                                                          • sparkパラメータ最適化チューニング | 株式会社ARISE analytics(アライズ アナリティクス)

                                                                            こんにちは。Customer Analytics Division所属データサイエンティスト兼データエンジニアの渡邉です。ARISE analyticsでは数百人のデータサイエンティストが活躍しています。一般的な分析環境は、データサイエンティストがそれぞれEMRを立て、その上のsparkで分析を走らせています。ただ、その分日々の分析費用も大きいものとなっています。そこで、sparkパラメータ最適化にトライしました。 spark最適パラメータ計算法 こちらのAWSの記事に従って計算しました。一部のパラメータについて、絵で説明したいと思います。 spark.executor.cores sparkはExecutorという単位があり、これが処理を実行する単位です。spark.executor.coresは各ExecutorがCPUのcoreをいくつ使用するか決めるパラメータです。絵で直感的にわか

                                                                              sparkパラメータ最適化チューニング | 株式会社ARISE analytics(アライズ アナリティクス)
                                                                            • 【 Google Cloud 入門編・第31回】 ネットワークにサブネットを追加する | 株式会社トップゲート

                                                                              削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                                【 Google Cloud 入門編・第31回】 ネットワークにサブネットを追加する | 株式会社トップゲート
                                                                              • Snowball Edge を使用したデータ移行のベストプラクティス | Amazon Web Services

                                                                                Amazon Web Services ブログ Snowball Edge を使用したデータ移行のベストプラクティス AWS Snowball Edge は、オンプレミスのストレージ (SAN、NAS、パラレルファイルシステム) またはデータベースから Amazon S3 へのペタバイト規模のオフラインデータ移行を可能にします。AWS Snowball Edge は、AWS Snow Family の一部であり、データ移行に使用できるデータ転送サービスの優れた AWS ポートフォリオです。データ転送サービスの AWS ポートフォリオには、高速オンライン転送のための AWS DataSync も含まれています。 使用可能なネットワーク帯域幅は、オンラインまたはオフラインの転送メカニズムを選択する際の重要な考慮事項です。たとえば、500 Mbps の専用ネットワーク接続を介して 1 PB のデ

                                                                                  Snowball Edge を使用したデータ移行のベストプラクティス | Amazon Web Services
                                                                                • Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog

                                                                                  HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。 一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。 確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。 環境 リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,

                                                                                    Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog