タグ

hdfsに関するgom68のブックマーク (3)

  • アプリログを BigQuery に入れるまで | BLOG - DeNA Engineering

    また、 BigQuery のストレージ料金は非圧縮の状態のデータサイズが課金対象となります。 Cloud Storage 上に gzip で圧縮した状態で保持することで、ストレージ料金を大きく下げることができます。 Cloud Storage から BigQuery にエクスポートする際に料金が少しかかりますが、それについては後述します。 安定性 BigQuery のテーブルは型を持っているため、何かしらのバグでログに不正な文字列が入ると、 BigQuery へのインサートは失敗します。その場合にログを web server 内部に溜めてしまうと web server のディスク領域が逼迫したり、番稼働しているサーバーに入っての復旧作業が必要となったりするデメリットがあります。 まずはどんなデータでも受け入れてくれる Cloud Storage にデータを入れてしまい、その後起きうる問題

    アプリログを BigQuery に入れるまで | BLOG - DeNA Engineering
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
  • HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita

    Cloudera Engineering BlogにてCDH5.5にDistCpの高速化が実装されたと紹介されていたので、試してみました。 リンク先の説明を読んだ限り、2つのHDFS Snapshot間の差分情報を使って 削除・名前変更はDistCpを使わずに反映 新規作成・変更されたファイルだけをDistCpで同期 することで、高速化を図っているようです。 試した環境は、 CentOS: 7.2 (64bit) CDH 5.7.0 (擬似分散) です。 HDFSの準備 今回は、 同期元ディレクトリ:/user/hadoop/source 同期先ディレクトリ:/user/hadoop/target という状況とします。 [hadoop@localhost ~]$ hdfs dfs -mkdir source [hadoop@localhost ~]$ hdfs dfs -mkdir tar

    HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita
  • 1