原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
2. 自己紹介 • 木浦正博, Masahiro Kiura • 株式会社ドワンゴ/第二サービス開発本部 • ソフトウェアエンジニア • 2015年01月入社 • I ❤️ • 分散システム(Hadoop/Grid computing etc…) • パラメータチューニング • Linux • Python 2DWANGO Co., Ltd. all rights reserved. 3. 会社紹介 株式会社ドワンゴ • カドカワグループ • ニコニコ動画、ニコニコ生放送を はじめとするニコニコ事業を展開 • 2016年04月 N高等学校/N予備校 開校 • 2017年04月 ニコニコ超会議2017開催 項目 データ 登録者数 約6,743万人 プレミアム会員数※ 約243万人 MAU 約913万人 ※プレミアム会員とは? 月額540円にて、専用回線での快適な視聴や、 生放送の優先視聴ほか
現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-2
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く