[B! hadoop] akishin999のブックマーク

Evernote

akishin999 2017/03/29

hadoop

リンク

Apache Bigtop で Docker コンテナ上に Hadoop ソフトウェアスタックを構築する - Qiita

Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016 の24日目です。この記事では、Hadoop クラスタを手軽に手元に構築したいときに便利な、Apache Bigtop の機能について紹介したいと思います。 Apache Bigtop とは Apache Bigtop は、Hadoop とその周辺ソフトウェアをビルドし、 deb や rpm といった形式でパッケージ化することで、各種 Linux ディストリビューションへの導入を容易にするためのプロジェクトです。それ以外にも、以下のような機能を持っています。作成したパッケージをクラスタ内の各ノードにデプロイし、適切に設定するためのプロビジョニング機能デプロイ結果の確認や、ソフトウェアバージョン間の相互運用性の担保に使われる、統合テスト・スモークテス

akishin999 2017/01/28

リンク

TechCrunch | Startup and Technology News

TechCrunch Daily News Every weekday and Sunday, you can get the best of TechCrunch’s coverage. Startups Weekly Startups are the core of TechCrunch, so get our best coverage delivered weekly.

akishin999 2016/03/26

hadoop

リンク

Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開 | OSDN Magazine

Apache Hadoop環境で利用できる高度なデータウェアハウスシステム「Apache Tajo」開発チームは10月27日、最新版となる「Apache Tajo 0.11.0」をリリースした。 Apache TajoはApache Hadoop環境で動作するリレーショナル・分散データウェアハウス（DWH）ソフトウェア。分散SQLクエリ処理エンジン、低遅延、拡張性のあるアドホッククエリ、オンラインアグリゲーションなどの機能を備え、Hadoop Distributed File System（HDFS）やその他のデータソース上にある大規模なデータセットにアクセスして分散実行を直接制御できる。ETL、ANSI/ISO SQL標準、Hive MetaStoreアクセス、CSV/JSON/RCFile/Paquetなどのファイル/データフォーマットをサポートするのも特徴。同プロジェクトは2014年

akishin999 2015/10/28

hadoop

リンク

Hadoopが扱う機密データのマスキングについて - Qiita

CDH 5.4 から導入された、Sensitive Data Redaction (機密データのマスキング) 機能を紹介します。できること Hadoopクラスタのログファイル、Hive/Impalaクエリに含まれる任意の機密データのマスキングが可能です。必要なもの CDH 5.4 / Cloudera Manager 5.4 手順 Cloudera Managerにログインし、HDFSサービスを選択します。 2. HDFSの設定画面で、「redaction」で検索します。 3. デフォルトでは「クレジットカード情報」、「社会保障番号」、「ホスト名」、「メールアドレス」のマスキングテンプレートが用意されています。カスタムのマスキングを定義することも可能です。ここではクレジットカード情報をマスキングします。 4. 設定画面内で、マスキングがどのように動作するのか、テストすることができます。

akishin999 2015/07/22

hadoop

リンク

Apache Hiveの今とこれから

2018/10/5 に開催された Analytics Architecture Night - Tokyo の発表資料です https://analyticsarchitecturenighttoky.splashthat.com/

akishin999 2015/06/19

hadoop
hive

リンク

バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ！とかあれば是非ブログ等に書いてほしいと思っております。最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

akishin999 2015/06/17

リンク

Presto がもっとも優れている SQL-on-Hadoop な理由 | Epitome

Why Presto is the Best SQL-On-Hadoop You Haven’t Heard Of | Treasure Data Blog

akishin999 2015/03/14

hadoop

リンク

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講演資料）

akishin999 2015/03/02

hadoop

リンク

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）日本Hadoopユーザー会濱野賢一朗／Kenichiro Hamano (NTTデータ)

akishin999 2014/11/12

hadoop

リンク

Cloudera Impalaをサービスに組み込むときに苦労した話

GMOインターネットグループのアドテク・サービスの一つ「GMOプライベートDMP」。GMOアプリクラウドのインフラにCDHのHadoopエコシステムを構築しました。コア・テクノロジーとしてのHBase×Impala活用事例と、システム設計についてご紹介します。

akishin999 2014/11/01

hadoop

リンク

Riak CS 1.5 がリリースされました - kuenishi's blog

Riak CS 1.5.0 が米国時間で昨日、リリースされた。OSSになってから1年余りになる。このリリースは、1.4系に残っていた多くのバグをなおしつつ、いくつかのAPI追加を行ったものだ。相変わらず運用まわりの地味な機能追加が多い。また、コレは Riak 1.4系の上で動作する最後のRiak CSになるだろう。1系の集大成だと個人的には思う。思えば一年半、遠くにきたもんだ。いろいろ怒られたり、ちょっとだけ売れたり、ちょっと前には Riak CS上で今をときめくトレジャーデータのシステムが動き始めたりと… なんでこんなことを書いているかというと、このリリースのために割といろいろ頑張ったからですね。こういう風にあちこちで使われている製品のソースコードに、技術的な難しさはほとんどないとはいえかなりの量をコミットしたのは私の人生では初めてのことなので、これはまたちょっと感慨深いのであった。1.

akishin999 2014/08/06

riak
hadoop

リンク

Hadoopの標準GUI HUEの最新情報

This document provides an overview of Apache NiFi and dataflow. It begins with an introduction to the challenges of moving data effectively within and between systems. It then discusses Apache NiFi's key features for addressing these challenges, including guaranteed delivery, data buffering, prioritized queuing, and data provenance. The document outlines NiFi's architecture and components like rep

akishin999 2014/07/09

hadoop

リンク

Private Presentation

Private content!This content has been marked as private by the uploader.

akishin999 2014/07/09

リンク

HDPとAmbariを試している - wyukawa's diary

今度新規にHadoopクラスタを構築する予定なのですが、HortonworksのHDPおよびAmbariをちょっと試しています。僕は今までApacheのコミュニティ版Hadoop 1系を1年ほど運用していたので、今どきのHadoop事情にうとかったんですがいろいろ変わってるんですね。 NameNode HAとか名前だけは知っていたのですが、実態がどんなもんだかよくわかってなかったし。今の時点でHadoopのディストリビューションを選択するとしたら、Apacheのコミュニティ版, CDH, HDPのいづれか３択で、どれを選ぶにしてもYARNに突入せざるをえないでしょう。例えばHiveしか使わないにしても。で、まあ、とりあえずHDPは新しいし触ったことある人も少なそうなのでちょっと試しています。 yumでひとつづつインストールしていってもいいのですが、AmbariというCloudera

akishin999 2014/06/14

hadoop

リンク

Hadoopソースコードリーディング第16回に参加してきました | DevelopersIO

Hadoopソースコードリーディング第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないｗ今回はお酒を飲んでグダグダする時間はないｗ Apache Sparkのご紹介（前半） NTTデータ土橋さんまずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。土橋さん 6年前からHadoopに関わっている。基本はインフラエンジニア Ansible使っている。アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ前提机上調

akishin999 2014/05/30

hadoop

リンク

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita

EC2安くなる気がついたら、EC2がだいぶ値下げしていて、我が家のニコニコデータセットの分析環境のHive利用料も安くなっていた。参考【AWS発表】42回目の値下げ！EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも！ http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分析を行っていた。しかし、Elastic Map Reduceがhadoop2系からimpalaをサポートしたこともあり、hadoopのバージョンを上げて、impalaで分析出来ないか検証する

akishin999 2014/05/11

リンク

Oedo Ruby Conference 04: Ruby会議でSQLの話をするのは間違っているだろうか

「Ruby会議でSQLの話をするのは間違っているだろうか」 @大江戸Ruby会議04, 2014-04-19

akishin999 2014/04/30

リンク

halook -Hadoop・HBaseの可視化-

halookとは大量のサーバで構成されるHadoopクラスタの状態把握にお困りではないでしょうか？ halookとは、当社が開発しているWGP、ENdoSnipeを用いて、Hadoop・HBaseの内部を直観的に見える化するツールです。 halookを利用することで、今まで多くの人手と時間が必要だった、問題個所の発見・解決が容易に行えます。 halookでは、HDFSのサーバごとの使用サイズ・空きサイズ、各タスクの状況、HBaseのRegion数などを見える化することができます。 (2012/11/08現在の機能です。) ニュース ■2013/02/05(火) 日経コンピュータにHadoopのシステム開発・運用を容易にする国産OSSツールとして、当社のhalookが紹介されました。 ■2013/01/22(火) 当社の落合が、Hadoop Conference Japan 2013 Wi

akishin999 2014/03/28

hadoop
hbase

リンク

Cloudera Impala

大規模並列処理（MPP）エンジンであり、Hadoopのデータに対してSQLを用いてクエリを実行できるソフトウェアImpalaについて紹介する書籍です。ビッグデータのワークフロー全体から、またRDBMS、OS、そしてHadoopといった読者の背景知識を元にして、Impalaが実現する機能や役割を紹介します。なお本書はEbook版のみのリリースとなります。イントロダクション 1章　ビッグデータのエコシステムにおけるImpalaの立ち位置 2章　ビッグデータのワークフローにおけるImpalaの場所柔軟性パフォーマンス 3章　RDBMSの背景知識から見たImpala 標準的なSQL ストレージ、ストレージ、ストレージ数十億行に及ぶデータ Impalaとデータウェアハウスの相似点 Impalaでの初めてのクエリ Impalaのテーブルへのデータの取り込み 4章　UnixあるいはLinuxの背

akishin999 2014/03/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (59)

hadoopに関するakishin999のブックマーク (182)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス