タグ

Apacheに関するsatoshi_hiraishiのブックマーク (4)

  • Apache BeamでSlackのエクスポートデータをBigQueryに投入する - 詩と創作・思索のひろば

    同じことをEmbulkでやったネタはこちらです: SlackのログをBigQueryにインポートする(手動) - 詩と創作・思索のひろば Slackワークスペースの管理者であれば、ワークスペースのデータをエクスポートできる。このデータをBigQueryに投入したら面白いかもしれないので、Apache Beamの素振りがてらやってみた。 Apache Beamはデータ処理のパイプラインを記述するためのフレームワークで、Google Cloud DataflowやApache Sparkなどのランタイムに対応しているとのこと(Copilotくん調べ)。SDKもいつかの言語に対応していて、おそらく機能が豊富な順にJavaPythonGoTypeScriptなどがあるみたい。TypeScriptが使えると個人的には書き味がいちばんいいのだけど、使ってみたところあまり機能が揃っていないようだっ

    Apache BeamでSlackのエクスポートデータをBigQueryに投入する - 詩と創作・思索のひろば
  • メッセージングPF「Apache Pulsar」の使い方(入門編)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。システム統括部クラウドプラットフォーム部の水嶋と申します。私は現在、社内向けにキューイング・Pub-Sub・ストリーミングなどのメッセージングプラットフォームを提供するチームに所属しています。 このチームでは、メッセージングプラットフォームとしてOSS Apache Pulsar(以降、Pulsar)を利用しています。チームは数年間Pulsarを開発・運用しており、この経験からノウハウが蓄積されています。これらを公開し、皆さんにぜひPulsarについて興味を持っていただければと考えています。そこで、Pulsarの使い方、運用方法、ヤフーでの事例などをシリーズ記事として投稿していくことにいたしました。稿に限らず、今

    メッセージングPF「Apache Pulsar」の使い方(入門編)
  • Apache Kafka 超入門 - 赤帽エンジニアブログ

    こんにちは、ソリューションアーキテクトの蒸野(ムシノ)です。 今回は「AMQ Streams」のベースとなっている「Apache Kafka」の超概要を説明をしたいと思います。 Apache Kafka とは 2010年にLinkedInで開発され、2011年にLinkedInから公開されたオープンソースの分散メッセージングシステムです。 Apache Kafkaはストリームデータのために設計された分散システムであり、大量のログやイベントデータなどの大量のデータをハイスループット/低レイテンシで収集・配信することが目的で、スケールアウト、対障害性、分散データストリーム処理やイベントドリブンアプリケーションを可能にします。 Apache Kafka の公式ドキュメントでは次のように示されています。 Apache Kafka is an open-source distributed even

    Apache Kafka 超入門 - 赤帽エンジニアブログ
  • CDH (Hadoop) 入門 - MicroAd Developers Blog

    はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

    CDH (Hadoop) 入門 - MicroAd Developers Blog
  • 1