[B! hadoop] hohoho_ho2005のブックマーク

Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

IT基盤部の nodoka です。私の業務はWebサービスの運用が中心でしたが、数年前からHadoopを中心とした分散基盤環境のインフラも見るようになりました。当初は巨大なHadoop環境の管理を体系化して引き継ぐことと、運用における属人性を排除することが喫緊の課題でした。それが落ち着くと、ご多分に漏れずクラウド化を検討・推進するようになったので、その流れをまとめてみようと思います。 DeNAのHadoop環境と改善策 Hadoopが抱える課題 GCPへの移行 embulk利用におけるTips DeNAのHadoop環境と改善策 DeNAにおけるHadoop環境の歴史は古く、DeNAのほとんどのサービスが利用しています。各サービスでは分析したいログやDBのスナップショットをHadoopのファイルシステムであるHDFSに一旦置きます。そのHDFSに置かれたファイル群をHadoopを

hohoho_ho2005 2019/09/20

hadoop

リンク

Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門

Presto/Trino 1は日本語の入門書がなく、「Presto/Trino を運用することになったけど何から勉強すれば良いかわからない＞＜」という人も多いのではないかと思います。そこで、Presto/Trino を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいので、Hive と Presto の環境構築をサクッと行える Amazon Elastic MapReduce (以降 EMR) で実際に手を動かせればと思います。以降 Presto/Trino ではなく Presto と表記しますが、Trino は元々同じソフトウェアであるため、Trino でも当てはまる内容がほとんどのはずです。なお、Presto のバージョンは 2019-03-13 時点で最新の EMR 5.21.0

hohoho_ho2005 2019/03/13

リンク

Hadoop本第3版 3章 Hadoop分散ファイルシステムについて - Qiita

*こちらはOpt社内で実施しているオライリーのHadoop本第3版の輪読会用資料になります自己紹介株式会社オプト　シニアエンジニア @sisisin GitHub Twitter フロントエンドマン（Angular,AngularJS中心）スクラムマスター最近インフラ周りも始めました Scalaも書いてます Hadoop本第3版第3章Hadoop分散ファイルシステムについてかいつまんで説明していこうと思います内容的にはHadoop本の内容をピックアップしているだけなので、真面目にやるなら実際のHadoop本を読んだほうが良いです事前準備（必須ではないが、動かしてみながらやるなら。）この記事を参考に、ローカルのHDFS環境を設定するリポジトリをクローンし、 3eブランチをチェックアウトしておくはじめに Hadoopは独自の分散ファイルシステムであるHDFS（Hadoop

hohoho_ho2005 2018/11/22

hadoop

リンク

ぐるなびデータ基盤の運用について - ぐるなびをちょっと良くするエンジニアブログ

はじめまして。データマネジメントグループ DMPチームの瀧澤と申します。趣味は映画鑑賞と自宅のスマートホーム化です。ぐるなびではデータ基盤の構築・運用を担当しています。今回は私が運用しているデータ基盤環境の概要や導入経緯、運用のTipsをご紹介させていただこうと思います。ぐるなびでの導入経緯過去環境からの変遷現データ基盤環境の概要 Hadoopのエコシステムを利用他システムとの連携気軽に分析・集計ができる検証環境構築作業説明エコシステムバージョンアップ注意した点〜入念にテストを実施マスターノード移行注意した点構築作業でハマった箇所 Hiveのバージョンアップに伴うバッチ動作確認 Hiveの認証方式廃止問題権限付与なりすまし機能コマンド日々の運用クラスタの運用について自作のコンフィグ自動更新ツールによってファイル展開を容易にする今後の展開今後の環境

hohoho_ho2005 2018/10/16

hadoop

リンク

Apache Hadoop HDFSの最新機能の紹介（2018）#dbts2018

2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。

hohoho_ho2005 2018/09/21

hdfs
hadoop

リンク

Apache Hadoop上でTensorFlowを動かす「TonY」 | OSDN Magazine

米Microsoft傘下のLinkedIn開発者は9月12日、Apache Hadoop上でTensorFlowをネイティブに動かすオープンソースプロジェクト「TensorFlow on YARN（TonY）」を発表した。 TensorFlow on YARN（TonY）は、大規模なApache Hadoop実装上で分散型で機械学習を運用するためにLinkedIn社内で開発されたフレームワーク。単一ノードまたは分散型のTensorFlowトレーニングをHadoopアプリケーションとして動かすことができる。開発チームによると、それまで「TensorFlow on Spark」やIntelの「TensorFlowOnYARN」を試したが、信頼性や柔軟性に欠けたため新たに開発することにしたという。TonYでは、リソースネゴシエーションやコンテナ環境設定などのタスク処理を通じてTensorFlo

hohoho_ho2005 2018/09/17

リンク

MicroAdのデータ基盤 - MicroAd Developers Blog

こんにちは。インフラエンジニアの@kanga333です。最近マイクロアドではデータ基盤を刷新しました。今回はデータ基盤の刷新に至る背景と新基盤での設計ポイントについてざっくり書いていきたいと思います。刷新に至る背景マイクロアドを長年支えてきた既存データ基盤は長年の改修の結果、色々な課題を抱えていました。データの転送がNFS, Fluentd, Kafkaなど機能毎に色々な方法で行われており、共通基盤的な部分にもかかわらず共通化ができていませんでした。 Hadoopクラスタはサービス毎に立ち上がっていました。クラスタのバージョンは更新できておらず、運用コストが膨らんでいました。クラスタが分散しているので、データサイエンティストが新しい環境にデータを集める際に、どこににデータがあるのか各担当者にヒアリングする必要がありました。そして、そこに第一回の記事でも触れているようにDWHの

hohoho_ho2005 2018/05/26

リンク

CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER

Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。この Hadoop/HDFS を中心として Apache Hive や Apache HBase などのミドルウェアが動作する一大エコシステムが形成されている。今回は、そんな Apache Hadoop を CentOS7 で使ってみることにする。尚、Apache Hadoop 関連の OSS をインストールするときは、いくつかの会社が出しているディストリビューションを利用することが多い。例えば Cloudera CDH や Hortonworks HDP など。しかし、今回はそれらのディストリビューションを使

hohoho_ho2005 2017/11/01

hadoop

リンク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

hohoho_ho2005 2017/07/11

hadoop

リンク

Hadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない - ブログなんだよもん

id:shiumachi さんが書かれてる下記の記事がとても良かったです。 shiumachi.hatena blog.com 私自身もSparkを触る前は「Hadoop == MapReduce」と思ってましたが、どちらかというとYARNやHDFSがHadoopファミリの核だと最近は思いますしその意味でのHadoopは全然終わってないと思います。記事の中で書かれてる通り、ある意味ではさらなる進化を遂げて花開いてる状態かな、と。ただ、Twitterにも少し書いたんですが一方で「猫も杓子もHadoop！」の時代が終わりつつあるのも事実かな、と思います。もうちょっというとHadoopに限らず巨大スケールの分散システムの用途が収斂してきたのかな、と。 HadoopやGoogle MapReduce登場時のと違い、ストレージI/Oは133MB/sとかの単位で争ってたHDDからストレージに代わっ

hohoho_ho2005 2017/07/11

hadoop

リンク

HDFSの新しい機能３つ

HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日本語に翻訳しました。全３回にわたって掲載する予定なので、興味があればご覧ください。第１弾：Apache HadoopのHDFS Erasure Codingの紹介第２弾：How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する第３弾：HDFSのメンテナンスステート

hohoho_ho2005 2017/06/08

hdfs
hadoop

リンク

リクルート式Hadoopの使い方

[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonightAmazon Web Services Japan

hohoho_ho2005 2017/06/08

hadoop

リンク

decode17

分散並列処理の基本に関する解説と，分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です．

hohoho_ho2005 2017/05/28

リンク

Python から Hadoop Streaming を使ってみる - CUBE SUGAR CONTAINER

今回は、任意のプログラミング言語から Apache Hadoop を使うことのできる Hadoop Streaming という機能を使ってみる。通常、Hadoop を使って MapReduce のジョブを直接扱うときは Java を使ってマッパーとリデューサーを書くことになる。ただ、ご存知の通り Java のソースコードというのは重厚長大で、なかなか読み書きがしやすいとは言いにくい。そこで、任意のプログラミング言語、具体的には標準入出力を処理する実行ファイルさえあれば使える機能ができた。それが Hadoop Streaming というもの。この機能を使うことで低レイヤーな MapReduce の処理を、使い慣れたプログラミング言語を使うなど好きなやり方で記述できる。ちなみに、今回のエントリでは事前に Apache Hadoop がセットアップされていることを前提に書いていく。

hohoho_ho2005 2017/05/24

リンク

Hadoop NamenodeとResourceManagerのHA構成について

Hadoop NamenodeとResourceManagerのHA構成についてメモしておきます。 Hadoopはコミュニティー版を使ってHAなNamenodeとResourceManagerを持つHadoop Clusterを構築します。簡単にHA構成が作りたいのであれば、CDHのCloudera Managerがおすすめです。 HA構成について今回作るHA構成について簡単な説明。 Namenode HAactive / standby構成Quorum Journal Manager (QJM) Namenodeのメタデータを複数のJournal Nodeで保持するためのManager。Quorumとあるように複数のJournal Nodeで過半数で書き込みに成功した場合にメタデータの更新が行われる。 Automatic failover ZookeeperのQuorumとZKFail

hohoho_ho2005 2017/05/16

hadoop

リンク

Amazon Elastic MapReduceを使って簡単分散処理 | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の杉光です。今回はAmazon Web Serviceの一つであるAmazon Elastic MapReduce(以下EMRと省略)を利用して簡単に大規模データの分散処理を行う方法とEMRでサポートされているHadoopエコシステムの利用例をご紹介したいと思います。 Amazon EMRとは EMRはAWSが提供するHadoopクラスターのサービスです。クラウドサービスなので、わずか数分で仮想サーバーのクラスターを立ち上げ可能にし、計算能力の需要に合わせクラスターを構成するサーバー数を調整することが可能です。時間単位の課金なので、大量のデータを直ぐに短期間で処理したい場合も高いコストパフォーマンスで対応できます。また、他AWSサービスとの連携が可能で、S3、RDSやDynamoDBに保存されたデータにクラスターからアクセスが可能です。とりわけ、S3はHDF

hohoho_ho2005 2017/03/30

aws
hadoop

リンク

（翻訳）PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita

始めに：pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。翻訳元： Native Hadoop file system (HDFS) connectivity in Python 2017/1/3 これまで、Hadoop File SystemことHDFSとのやりとりするためのPythonライブラリが数多く開発されてきました。HDFSのWebHDFSゲートウェイ経由のものもあれば、ネイティブのProtocol BufferベースのRPCインターフェースもあります。このポストでは、既存のライブラリの概要をお伝えし、Arrowのエコシステム開発の中で高パフォーマン

hohoho_ho2005 2017/03/30

リンク

（日本語）Hadoopは失敗した、という分析

Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。すでに、Hadoopは多くの企業で使われ...

hohoho_ho2005 2017/03/29

hadoop

リンク

Apache Hadoop 2.5.0 セットアップ手順その1 – ローカル実行からシングルノードクラスター起動まで - hrendoh's tech memo

Apache PigなどHadoopも含めて関連技術を勉強中なので、MapReduceモードでPigを動作させるためにHadoopをセットアップしてみました。通常、オンプレにHadoop環境を構築する際は、Apache Hadoopではなく、ClouderaやHortonworksなどのディストリビューションを利用した方が良いですが、まずはApache Hadoopをインストールして実行を確認してみます。今回は、Ubuntu 14.04上にHadoop 2.5.0をシングルノードクラスター(疑似分散モード)としてセットアップしてMapReduceのサンプルを実行するまでの手順を試した際のメモになります。ほぼ、公式ドキュメントApache Hadoop 2.5.0 – Hadoop MapReduce Next Generation 2.5.0 – Setting up a Singl

hohoho_ho2005 2017/03/26

hadoop

リンク

20170303 java9 hadoop

1. © 2017 NTT DATA Corporation 2017年3月3日 NTTデータ OSSプロフェッショナルサービス鯵坂明 Apache HadoopとJava 9とJigsaw 2. © 2017 NTT DATA Corporation 2 鯵坂明 (Akira Ajisaka)  Apache Hadoopなど分散処理に関連するOSSを利用したPoC や、商用導入における技術支援  商用導入後のサポートサービス  Apache Hadoop Committer/PMC member  JIRAへのバグレポート  修正、レビュー、マージ  リリース作業の手伝い  脆弱性の修正・開示  などなど自己紹介 https://github.com/apache/hadoop/graphs/contributors 3. © 2017 NTT DATA Cor

hohoho_ho2005 2017/03/09

hadoop
java

リンク

はてなブックマーク

タグ

関連タグで絞り込む (79)

hadoopに関するhohoho_ho2005のブックマーク (499)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス