[B! Hadoop] [2ページ] yassan0627のブックマーク

yassan0627 id:yassan0627

Hadoopに関するyassan0627のブックマーク (288)

nifi-stuff/nifi-docker-compose at main · asdaraujo/nifi-stuff
yassan0627 2022/06/28
“This docker-compose configuration file uses the NiFi docker image to launch a 2-node NiFi cluster. The NiFi configuration and repositories are persisted in Docker volumes, so they survive cluster restarts.”

Apache NiFi

データ

hadoop
リンク
Get to Know Apache Flume from Scratch!
yassan0627 2022/06/24
hadoop

Flume

データ
リンク
Optimizing Hive on Tez Performance - Cloudera Blog
yassan0627 2022/06/18
Hive on Tezのパフォーマンス・チューニング

hadoop

Tez

データ
リンク
LINEの大規模なData PlatformにData Lineageを導入した話
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめにこんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています　IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか
yassan0627 2022/06/14
データ

hadoop

Atlas
リンク
Hive to Iceberg Migration: Hands-On Tutorial
yassan0627 2022/06/10
hadoop

Iceberg

Hive
リンク
Maintaining Iceberg Tables: Best Practices
yassan0627 2022/06/10
hadoop

Iceberg

Hive
リンク
Monitoring Apache Knox
yassan0627 2022/05/18
hadoop

Apache Knox
リンク
Snowflakeプラットフォームが支える６ワークロード(5) データレイクの過去と現在、そして未来
DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。解説者：クラスメソッド株式会社データアナリティクス事業本部プリセールスアーキテクト甲木洋介氏 Twitter：@yokatsuki はじめにデー
yassan0627 2022/04/21
データ

hadoop
リンク
Deep dive into YARN Log Aggregation / Deep dive into managing logs
yassan0627 2022/02/16
hadoop

YARN
リンク
自前HadoopクラスタとApache Rangerを連携してみる - GMOインターネットグループグループ研究開発本部
こんにちは，次世代システム研究室のS.T.です。最近はFPGAネタを書くことが多かったのですが，今回はHadoopネタです。Apache Rangerを自前のHadoopクラスタに導入し，ユーザごとに権限管理できることを確認します。例によって，ビルドなどにハマリつつ右往左往した結果をまとめた構築手順のような内容です。あっさり書いてありますが，ゼロから調べて動かすとなると骨が折れるので，同じ箇所でハマっている方の助けになればと思います。 1.Apache Rangerとは Apache Rangerは，Hadoopクラスタの権限管理やauditロギングを行うためのソフトウェアです。HDFSのディレクトリやHiveのテーブルなどに対して，ユーザやグループごとに権限を設定して管理することができます。HDFSに大規模データを蓄えてHiveやSparkで処理や分析を行う，というのが一般的なユースケー
yassan0627 2022/01/18
hadoop

セキュリティ
リンク
Delta LakeのACIDトランザクションについて - Qiita
この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。はじめにビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き
yassan0627 2021/12/25
Delta Lake

hadoop
リンク
Impala 4.0 とPresto 350によるSQLレシピ本の検証（１）
Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2021 23日目です。今年も Hue について書こうかと考えていましたが、最近 SQL(Presto)やEmbulk,Digdagを使う機会が増えているので趣向を変えてみます。 Hueについて興味がある方は[公式ブログ（日本語）](http://https://jp.gethue.com//posts/ “公式ブログ（日本語）”)をご覧ください。翻訳サボってます・・・ ———— SQL レシピ本とは？ビッグデータ系の良書の一冊でもある「ビッグデータ分析のためのSQL レシピ本」、出版から4年経過しても色あせることはありません。この書籍では、SQLの記述方法から分析手法まで広く扱われおり、写経するだけでも大きな知見が得られるでしょう。一方、扱われ
yassan0627 2021/12/24
hadoop

impala

presto

sql
リンク
Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー
yassan0627 2021/12/10
hadoop

HDFS

運用

Apache Ozone

事例

データ
リンク
Apache Spark on Kubernetes入門（Open Source Conference 2021 Online Hiroshima 発表資料）
yassan0627 2021/12/08
spark

hadoop

k8s
リンク
Apache Sparkの基本と最新バージョン3.2のアップデート 2021-11-20 B-6
yassan0627 2021/12/08
spark

hadoop
リンク
よりセキュアなHadoopの作り方〜 ApacheCon Asia 2021登壇報告
HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ
yassan0627 2021/12/07
hadoop

HDFS

セキュリティ
リンク
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
yassan0627 2021/12/06
spark

hudi

hadoop

データ
リンク
Apache Bigtopによるオープンなビッグデータ処理基盤の構築 2021-8-28 B-1
資料：”https://www.slideshare.net/nttdata-tech/bigtop-hadoop-odc-2021-online-nttdata/" このビデオは ODC2021 Online 8-28 B-1 ”Apache Bigtopによるオープンなビッグデータ処理基盤の構築” 2021年8月28日(土) 10:00 〜 10:45 セッション概要 Apache Hadoopによる大規模データ処理では、ScalaやJava,Python,R,SQLといった言語で柔軟かつ高度なデータ処理を可能にするSparkや、Hadoopの分散ファイルシステム上で動く分散KVSに相当するHBase、データローダやジョブスケジューラなど、様々な周辺ミドルウェアを組み合わせて利用します。本講演では、これらのHadoopエコシステムと呼ばれる製品群のパッケージングを提供するApache
yassan0627 2021/11/30
hadoop

bigtop
リンク
Apache Bigtopによるオープンなビッグデータ処理基盤の構築（オープンデベロッパーズカンファレンス 2021 Online 発表資料）
yassan0627 2021/11/30
hadoop

bigtop
リンク
Hadoop/Sparkを使うなら"Bigtop"を使い熟そう！〜並列分散処理基盤のいま、からBigtopの最近の取り組みまで一挙ご紹介〜 2021-11-20 B-1
yassan0627 2021/11/30
hadoop

bigtop
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx