タグ

hadoopに関するhohoho_ho2005のブックマーク (499)

  • Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

    IT基盤部の nodoka です。 私の業務はWebサービスの運用が中心でしたが、数年前からHadoopを中心とした分散基盤環境のインフラも見るようになりました。 当初は巨大なHadoop環境の管理を体系化して引き継ぐことと、運用における属人性を排除することが喫緊の課題でした。 それが落ち着くと、ご多分に漏れずクラウド化を検討・推進するようになったので、その流れをまとめてみようと思います。 DeNAのHadoop環境と改善策 Hadoopが抱える課題 GCPへの移行 embulk利用におけるTips DeNAのHadoop環境と改善策 DeNAにおけるHadoop環境の歴史は古く、DeNAのほとんどのサービスが利用しています。 各サービスでは分析したいログやDBのスナップショットをHadoopのファイルシステムであるHDFSに一旦置きます。 そのHDFSに置かれたファイル群をHadoopを

    Hadoop環境のクラウド移行 | BLOG - DeNA Engineering
  • Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門

    Presto/Trino 1は日語の入門書がなく、「Presto/Trino を運用することになったけど何から勉強すれば良いかわからない><」という人も多いのではないかと思います。そこで、Presto/Trino を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいので、Hive と Presto の環境構築をサクッと行える Amazon Elastic MapReduce (以降 EMR) で実際に手を動かせればと思います。 以降 Presto/Trino ではなく Presto と表記しますが、Trino は元々同じソフトウェアであるため、Trino でも当てはまる内容がほとんどのはずです。 なお、Presto のバージョンは 2019-03-13 時点で最新の EMR 5.21.0

    Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門
  • Hadoop本第3版 3章 Hadoop分散ファイルシステムについて - Qiita

    *こちらはOpt社内で実施しているオライリーのHadoop第3版の輪読会用資料になります 自己紹介 株式会社オプト シニアエンジニア @sisisin GitHub Twitter フロントエンドマン(Angular,AngularJS中心) スクラムマスター 最近インフラ周りも始めました Scalaも書いてます Hadoop第3版第3章Hadoop分散ファイルシステムについてかいつまんで説明していこうと思います 内容的にはHadoopの内容をピックアップしているだけなので、真面目にやるなら実際のHadoopを読んだほうが良いです 事前準備 (必須ではないが、動かしてみながらやるなら。) この記事を参考に、ローカルのHDFS環境を設定する リポジトリをクローンし、 3eブランチをチェックアウトしておく はじめに Hadoopは独自の分散ファイルシステムであるHDFS(Hadoop

    Hadoop本第3版 3章 Hadoop分散ファイルシステムについて - Qiita
  • ぐるなびデータ基盤の運用について - ぐるなびをちょっと良くするエンジニアブログ

    はじめまして。データマネジメントグループ DMPチームの瀧澤と申します。趣味映画鑑賞と自宅のスマートホーム化です。 ぐるなびではデータ基盤の構築・運用を担当しています。 今回は私が運用しているデータ基盤環境の概要や導入経緯、運用のTipsをご紹介させていただこうと思います。 ぐるなびでの導入経緯 過去環境からの変遷 現データ基盤環境の概要 Hadoopのエコシステムを利用 他システムとの連携 気軽に分析・集計ができる検証環境 構築作業説明 エコシステムバージョンアップ 注意した点〜入念にテストを実施 マスターノード移行 注意した点 構築作業でハマった箇所 Hiveのバージョンアップに伴うバッチ動作確認 Hiveの認証方式廃止問題 権限付与 なりすまし機能 コマンド 日々の運用 クラスタの運用について 自作のコンフィグ自動更新ツールによってファイル展開を容易にする 今後の展開 今後の環境

    ぐるなびデータ基盤の運用について - ぐるなびをちょっと良くするエンジニアブログ
  • Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018

    2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。

    Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
  • Apache Hadoop上でTensorFlowを動かす「TonY」 | OSDN Magazine

    Microsoft傘下のLinkedIn開発者は9月12日、Apache Hadoop上でTensorFlowをネイティブに動かすオープンソースプロジェクト「TensorFlow on YARN(TonY)」を発表した。 TensorFlow on YARN(TonY)は、大規模なApache Hadoop実装上で分散型で機械学習を運用するためにLinkedIn社内で開発されたフレームワーク。単一ノードまたは分散型のTensorFlowトレーニングをHadoopアプリケーションとして動かすことができる。 開発チームによると、それまで「TensorFlow on Spark」やIntelの「TensorFlowOnYARN」を試したが、信頼性や柔軟性に欠けたため新たに開発することにしたという。TonYでは、リソースネゴシエーションやコンテナ環境設定などのタスク処理を通じてTensorFlo

    Apache Hadoop上でTensorFlowを動かす「TonY」 | OSDN Magazine
  • MicroAdのデータ基盤 - MicroAd Developers Blog

    こんにちは。インフラエンジニアの@kanga333です。 最近マイクロアドではデータ基盤を刷新しました。 今回はデータ基盤の刷新に至る背景と新基盤での設計ポイントについてざっくり書いていきたいと思います。 刷新に至る背景 マイクロアドを長年支えてきた既存データ基盤は長年の改修の結果、色々な課題を抱えていました。 データの転送がNFS, Fluentd, Kafkaなど機能毎に色々な方法で行われており、共通基盤的な部分にもかかわらず共通化ができていませんでした。 Hadoopクラスタはサービス毎に立ち上がっていました。クラスタのバージョンは更新できておらず、運用コストが膨らんでいました。 クラスタが分散しているので、データサイエンティストが新しい環境にデータを集める際に、どこににデータがあるのか各担当者にヒアリングする必要がありました。 そして、そこに第一回の記事でも触れているようにDWHの

    MicroAdのデータ基盤 - MicroAd Developers Blog
  • CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER

    Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。 この Hadoop/HDFS を中心として Apache Hive や Apache HBase などのミドルウェアが動作する一大エコシステムが形成されている。 今回は、そんな Apache Hadoop を CentOS7 で使ってみることにする。 尚、Apache Hadoop 関連の OSS をインストールするときは、いくつかの会社が出しているディストリビューションを利用することが多い。 例えば Cloudera CDH や Hortonworks HDP など。 しかし、今回はそれらのディストリビューションを使

    CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • Hadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない - ブログなんだよもん

    id:shiumachi さんが書かれてる下記の記事がとても良かったです。 shiumachi.hatenablog.com 私自身もSparkを触る前は「Hadoop == MapReduce」と思ってましたが、どちらかというとYARNやHDFSがHadoopファミリの核だと最近は思いますし その意味でのHadoopは全然終わってないと思います。記事の中で書かれてる通り、ある意味ではさらなる進化を遂げて花開いてる状態かな、と。 ただ、Twitterにも少し書いたんですが一方で「も杓子もHadoop!」の時代が終わりつつあるのも事実かな、と思います。 もうちょっというとHadoopに限らず巨大スケールの分散システムの用途が収斂してきたのかな、と。 HadoopやGoogle MapReduce登場時のと違い、ストレージI/Oは133MB/sとかの単位で争ってたHDDからストレージに代わっ

    Hadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない - ブログなんだよもん
  • HDFSの新しい機能3つ

    HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。 その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日語に翻訳しました。 全3回にわたって掲載する予定なので、興味があればご覧ください。 第1弾:Apache HadoopのHDFS Erasure Codingの紹介 第2弾:How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する 第3弾:HDFSのメンテナンスステート

    HDFSの新しい機能3つ
  • リクルート式Hadoopの使い方

    [CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonightAmazon Web Services Japan

    リクルート式Hadoopの使い方
  • decode17

    分散並列処理の基に関する解説と,分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です.

    decode17
  • Python から Hadoop Streaming を使ってみる - CUBE SUGAR CONTAINER

    今回は、任意のプログラミング言語から Apache Hadoop を使うことのできる Hadoop Streaming という機能を使ってみる。 通常、Hadoop を使って MapReduce のジョブを直接扱うときは Java を使ってマッパーとリデューサーを書くことになる。 ただ、ご存知の通り Java のソースコードというのは重厚長大で、なかなか読み書きがしやすいとは言いにくい。 そこで、任意のプログラミング言語、具体的には標準入出力を処理する実行ファイルさえあれば使える機能ができた。 それが Hadoop Streaming というもの。 この機能を使うことで低レイヤーMapReduce の処理を、使い慣れたプログラミング言語を使うなど好きなやり方で記述できる。 ちなみに、今回のエントリでは事前に Apache Hadoop がセットアップされていることを前提に書いていく。

    Python から Hadoop Streaming を使ってみる - CUBE SUGAR CONTAINER
  • Hadoop NamenodeとResourceManagerのHA構成について

    Hadoop NamenodeとResourceManagerのHA構成についてメモしておきます。 Hadoopはコミュニティー版を使ってHAなNamenodeとResourceManagerを持つHadoop Clusterを構築します。 簡単にHA構成が作りたいのであれば、CDHのCloudera Managerがおすすめです。 HA構成について今回作るHA構成について簡単な説明。 Namenode HAactive / standby構成Quorum Journal Manager (QJM) Namenodeのメタデータを複数のJournal Nodeで保持するためのManager。Quorumとあるように複数のJournal Nodeで過半数で書き込みに成功した場合にメタデータの更新が行われる。 Automatic failover ZookeeperのQuorumとZKFail

    Hadoop NamenodeとResourceManagerのHA構成について
  • Amazon Elastic MapReduceを使って簡単分散処理 | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の杉光です。 今回はAmazon Web Serviceの一つであるAmazon Elastic MapReduce(以下EMRと省略)を利用して 簡単に大規模データの分散処理を行う方法とEMRでサポートされているHadoopエコシステムの利用例をご紹介したいと思います。 Amazon EMRとは EMRはAWSが提供するHadoopクラスターのサービスです。 クラウドサービスなので、わずか数分で仮想サーバーのクラスターを立ち上げ可能にし、 計算能力の需要に合わせクラスターを構成するサーバー数を調整することが可能です。 時間単位の課金なので、大量のデータを直ぐに短期間で処理したい場合も高いコストパフォーマンスで対応できます。 また、他AWSサービスとの連携が可能で、S3、RDSやDynamoDBに保存されたデータにクラスターからアクセスが可能です。 とりわけ、S3はHDF

    Amazon Elastic MapReduceを使って簡単分散処理 | Casley Deep Innovations株式会社 技術ブログ
  • (翻訳)PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 翻訳元: Native Hadoop file system (HDFS) connectivity in Python 2017/1/3 これまで、Hadoop File SystemことHDFSとのやりとりするためのPythonライブラリが数多く開発されてきました。HDFSのWebHDFSゲートウェイ経由のものもあれば、ネイティブのProtocol BufferベースのRPCインターフェースもあります。このポストでは、既存のライブラリの概要をお伝えし、Arrowのエコシステム開発の中で高パフォーマン

    (翻訳)PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita
  • (日本語)Hadoopは失敗した、という分析

    Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...

    (日本語)Hadoopは失敗した、という分析
  • Apache Hadoop 2.5.0 セットアップ手順 その1 – ローカル実行からシングルノードクラスター起動まで - hrendoh's tech memo

    Apache PigなどHadoopも含めて関連技術を勉強中なので、MapReduceモードでPigを動作させるためにHadoopをセットアップしてみました。 通常、オンプレにHadoop環境を構築する際は、Apache Hadoopではなく、ClouderaやHortonworksなどのディストリビューションを利用した方が良いですが、まずはApache Hadoopをインストールして実行を確認してみます。 今回は、Ubuntu 14.04上にHadoop 2.5.0をシングルノードクラスター(疑似分散モード)としてセットアップしてMapReduceのサンプルを実行するまでの手順を試した際のメモになります。 ほぼ、公式ドキュメントApache Hadoop 2.5.0 – Hadoop MapReduce Next Generation 2.5.0 – Setting up a Singl

    Apache Hadoop 2.5.0 セットアップ手順 その1 – ローカル実行からシングルノードクラスター起動まで - hrendoh's tech memo
  • 20170303 java9 hadoop

    1. © 2017 NTT DATA Corporation 2017年3月3日 NTTデータ OSSプロフェッショナルサービス 鯵坂 明 Apache HadoopとJava 9とJigsaw 2. © 2017 NTT DATA Corporation 2 鯵坂 明 (Akira Ajisaka)  Apache Hadoopなど分散処理に関連するOSSを利用したPoC や、商用導入における技術支援  商用導入後のサポートサービス  Apache Hadoop Committer/PMC member  JIRAへのバグレポート  修正、レビュー、マージ  リリース作業の手伝い  脆弱性の修正・開示  などなど 自己紹介 https://github.com/apache/hadoop/graphs/contributors 3. © 2017 NTT DATA Cor

    20170303 java9 hadoop