LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか
DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部 プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木 洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。 解説者:クラスメソッド株式会社 データアナリティクス事業本部 プリセールスアーキテクト 甲木 洋介氏 Twitter:@yokatsuki はじめに デー
こんにちは,次世代システム研究室のS.T.です。最近はFPGAネタを書くことが多かったのですが,今回はHadoopネタです。Apache Rangerを自前のHadoopクラスタに導入し,ユーザごとに権限管理できることを確認します。例によって,ビルドなどにハマリつつ右往左往した結果をまとめた構築手順のような内容です。あっさり書いてありますが,ゼロから調べて動かすとなると骨が折れるので,同じ箇所でハマっている方の助けになればと思います。 1.Apache Rangerとは Apache Rangerは,Hadoopクラスタの権限管理やauditロギングを行うためのソフトウェアです。HDFSのディレクトリやHiveのテーブルなどに対して,ユーザやグループごとに権限を設定して管理することができます。HDFSに大規模データを蓄えてHiveやSparkで処理や分析を行う,というのが一般的なユースケー
この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。 はじめに ビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き
Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2021 23日目です。 今年も Hue について書こうかと考えていましたが、最近 SQL(Presto)やEmbulk,Digdagを使う機会が増えているので趣向を変えてみます。 Hueについて興味がある方は[公式ブログ(日本語)](http://https://jp.gethue.com//posts/ “公式ブログ(日本語)”)をご覧ください。翻訳サボってます・・・ ———— SQLレシピ本とは? ビッグデータ系の良書の一冊でもある「ビッグデータ 分析のためのSQLレシピ本」、出版から4年経過しても色あせることはありません。 この書籍では、SQLの記述方法から分析手法まで広く扱われおり、写経するだけでも大きな知見が得られるでしょう。一方、扱われ
Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー
HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。 この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ
広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました
資料:”https://www.slideshare.net/nttdata-tech/bigtop-hadoop-odc-2021-online-nttdata/" このビデオは ODC2021 Online 8-28 B-1 ”Apache Bigtopによるオープンなビッグデータ処理基盤の構築” 2021年8月28日(土) 10:00 〜 10:45 セッション概要 Apache Hadoopによる大規模データ処理では、ScalaやJava,Python,R,SQLといった言語で柔軟かつ高度なデータ処理を可能にするSparkや、Hadoopの分散ファイルシステム上で動く分散KVSに相当するHBase、データローダやジョブスケジューラなど、様々な周辺ミドルウェアを組み合わせて利用します。本講演では、これらのHadoopエコシステムと呼ばれる製品群のパッケージングを提供するApache
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く