[B! hadoop] atsuizoのブックマーク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

atsuizo 2019/09/14

hadoop

リンク

Java11へのマイグレーションガイド ~Apache Hadoopの事例~

This document discusses exactly once semantics in Apache Kafka 0.11. It provides an overview of how Kafka achieved exactly once delivery between producers and consumers. Key points include: - Kafka 0.11 introduced exactly once semantics with changes to support transactions and deduplication. - Producers can write in a transactional fashion and receive acknowledgments of committed writes from broke

atsuizo 2019/05/22

java
hadoop

リンク

CentOS7 で Apache Hadoop の完全分散モードを使ってみる - CUBE SUGAR CONTAINER

以前、このブログでは OSS 版の Apache Hadoop を疑似分散モードでセットアップする方法を試した。疑似分散モードというのは、一つのホスト上に必要なデーモンを全て立ち上げる方法を指す。このモードを使うと HDFS が使えるような、なるべく本番に近い環境が手軽に作れる。 blog.amedama.jp ただ、疑似分散モードでは本当にちゃんと動作するのかが確認しづらい箇所もある。それは、主にホストを分割してネットワーク越しにやり取りをする部分で、例えばファイアウォールの設定など。そこで、今回は Apache Hadoop を完全分散モードでセットアップしてみることにした。完全分散モードというのは本番運用されるのと同じ環境で、それぞれのデーモンを異なるホストで動かすやり方。完全分散モードのセットアップ方法については次のドキュメントを参照する。 Apache Hadoop

atsuizo 2017/11/14

hadoop

リンク

HDFS・YARNの完全分散クラスタを構築する - Qiita

Outline HadoopのYARN上で色々なアプリを動かすことになったのでテスト環境を作ってみた。基本的な動作確認は擬似分散モードでいいはずだが、nodeを増やしたり別ホストにnodeを置いた状態でのテストをするために構築してみた。環境共通設定 OS: Ubuntu14.04 （AWS EC2）ユーザー: ubuntu VPC: 全マシンは同一subnetに配置 IP: PublicIPとPrivateIPのどちらも使用。 Hadoop 2.5.2 port: 全開放（22, 80, 8020, 8032, 8088, 50070が開いてればたぶん大丈夫）マシン・役割 client 自分のメインマシン。主にsshで各ノードを操作したり、PublicIP経由で接続を確認したりする。 master Namenode/ResourceManager用 node1 datanode

atsuizo 2017/11/14

hadoop

リンク

Hadoopで完全分散モードを試す on VMWareFusion - Qiita

やりたいこと Hadoopの完全分散モードの環境を最短（1時間以内）で構築したい。 Hadoopのマスター、スレーブは、多くの要素が共通なので、共通部分の構築を1つのVMで行った後、必要な数だけVMをコピーし、可能な限り作業の重複を無くしたい。プロビジョニングツール等も考えたが、結局Hadoop以外のノウハウに依存するので、今回は原始的手法で。正直、めんどくさいのはVMをコピーした際にMacアドレスを振り直したりするのくらいです。利用する環境ホスト側 2009 lateのiMac（古い）32GB RAM Mac OS X El Capitan VMWareFusion8 ゲストOS CentOS6.7（7でもいい）構成はRAM1G,20GB HDの最小構成で作成。 Hadoopクラスタ構成 3台構成にします。 master（ネームノード：リソースマネージャ、ノードマネージャも） sl

atsuizo 2017/11/14

hadoop

リンク

Hive でダブルクオートで囲まれた CSV を扱えるようにする DDL の書き方 - Qiita

CREATE EXTERNAL TABLE IF NOT EXISTS sample_table ( id INT, register_date STRING ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.dynamic_type.DynamicSerDe' WITH SERDEPROPERTIES ( 'serialization.format'='org.apache.hadoop.hive.serde2.thrift.TCTLSeparatedProtocol', 'quote.delim'='"', 'field.delim'=',' );

atsuizo 2017/11/13

'quote.delim'='"'は'quote.delim'='\"'にしないと怒られてしまった。

hadoop
hive

リンク

HiveServer2とbeelineで遊んでみた記録 – OpenGroove

atsuizo 2017/11/13

hadoop
hive

リンク

Apache Hiveのインストール手順 - Qiita

概要 Apache Hadoop と Hive のインストール手順です。それぞれ別記事に分けて書きます。目次 Apache Hadoopのインストール手順 Apache Hiveのインストール手順 HadoopでWordCountをやってみる Apache Hadoopのインストール手順の続きです。 Hiveとは、Hadoopのデータを簡単に利用するためのソフトであり、 HiveQLという、SQL文に似た構文でデータを操作することができます。この手順では、擬似的にスタンドアローンモード（ローカルモード）で構築します。環境 CentOS 7.1 Hadoop 2.8.0 MariaDB 5.5.52 java 1.8.0 Hive 2.3.0 HBase 1.3.1 このページでは太字のもののインストールを行います。 Apache Hiveのセットアップ以下のページからApache

atsuizo 2017/11/13

hadoop
hive

リンク

CentOS7への擬似分散モードでのhadoop及び、hiveセットアップ手順 | takemikami's note

CentOS7にApache Hadoop及びHiveを擬似分散モードでセットアップする手順のメモです。 hiveのmetastoreにはmariadb(mysql)を使用します。 CentOS7はminimaldvdからデフォルト状態でインストールした前提です。使用したDVDイメージ: CentOS-7-x86_64-Minimal-1511.iso 以下の流れでセットアップをしていきます。前提となる設定などApache HadoopのセットアップApache Hiveのセットアップ前提となる設定などSELINUXの無効化「/etc/selinux/config」を編集してSELINUXを無効にしておきます。 SELINUX=disabled 編集した後は、「setenforce 0」するか、rebootしておきます。 OpenJDKのインストール以下のようにして、OpenJDKをイ

atsuizo 2017/11/13

hadoop
hive

リンク

CDH5で擬似分散モードのHadoopクラスタを構築する - TASK NOTES

CDH5を使用した擬似分散モードでのHadoopクラスタ構築方法です。ローカルマシンでメモリが少ないと複数のVMを立ち上げて完全分散モードで構築するのは難しいですが、擬似分散モードならVMも一つで済み、少ないメモリで構築することが可能です。仮想マシン（VM）の用意 VirtualBoxやVagrantを使用してCentOS6をインストールした仮想マシンを用意します。 MacでVirtualBoxにCentOS7をインストールしてSSH接続をするまでの方法 - TASK NOTES MacでVagrantを使用してVirtualBoxに仮想マシンを作成する - TASK NOTES JDKのインストール OracleのJDKをインストールします。 Java Development Kit Installation によるとJDK1.8も対象です。JDKのインストールについての詳細は Cen

atsuizo 2017/11/11

hadoop
cdh

リンク

CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER

Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。この Hadoop/HDFS を中心として Apache Hive や Apache HBase などのミドルウェアが動作する一大エコシステムが形成されている。今回は、そんな Apache Hadoop を CentOS7 で使ってみることにする。尚、Apache Hadoop 関連の OSS をインストールするときは、いくつかの会社が出しているディストリビューションを利用することが多い。例えば Cloudera CDH や Hortonworks HDP など。しかし、今回はそれらのディストリビューションを使

atsuizo 2017/11/11

hadoop

リンク

CentOSでHadoopとHiveを試してみる（2015年秋編） - Qiita

やりたいこと Hadoopファミリーは日々進化しますが、とはいえ、MapReduceとHiveのニーズは不滅です。現行（最新）かつ素のHadoopとHiveをCentOS上に構築して動作確認してみます。環境 CentOS6.7（7でも基本同じ:手元にイメージがあっただけ・・・） Hadoop 2.7.1 Hive 1.2.1 準備 CentOS6.7をMinimal構成でインストールした後、 yum update yum groupinstall 'Development tools' yum install wget を実行した状態。テスト自体は、VMWareFusion8上で行っているが、多分依存などは無い。 ssh 疑似分散モードを利用するためには、ssh localhostでパスフレーズ無しでログインできるようにしておく必要があります。

atsuizo 2017/11/11

hadoop
hive

リンク

Apache Hadoopのインストール手順 - Qiita

概要 Apache Hadoop と Hive のインストール手順です。それぞれ別記事に分けて書きます。目次 Apache Hadoopのインストール手順 Apache Hiveのインストール手順 HadoopでWordCountをやってみる Hadoopとは、ビッグデータを取り扱うための、分散処理のフレームワーク、基盤です。この手順では、擬似的にスタンドアローンモード（ローカルモード）で構築します。環境 CentOS 7.1 Hadoop 2.8.0 MariaDB 5.5.52 java 1.8.0 Hive 2.3.0 HBase 1.3.1 このページでは太字のもののインストールを行います。 SELINUXの無効化 SELINUXを無効にします。

atsuizo 2017/11/11

hadoop

リンク

Hiveハンズオン

こちらのスライドは以下のサイトにて閲覧いただけます。 https://www.docswell.com/s/ockeghem/ZM6VNK-phpconf2021-spa-security シングルページアプリケーション(SPA)において、セッションIDやトークンの格納場所はCookieあるいはlocalStorageのいずれが良いのかなど、セキュリティ上の課題がネット上で議論されていますが、残念ながら間違った前提に基づくものが多いようです。このトークでは、SPAのセキュリティを構成する基礎技術を説明した後、著名なフレームワークな状況とエンジニアの技術理解の現状を踏まえ、SPAセキュリティの現実的な方法について説明します。動画はこちら https://www.youtube.com/watch?v=pc57hw6haXk

atsuizo 2017/10/31

hadoop
hive

リンク

AWSのチュートリアル〜Analyze Big Data with Hadoop編〜 - Qiita

AWSのチュートリアルの日本語メモはじめに最近業務でAWS上に構築したHiveを利用するのですが、より理解を深めたいと思い、今回はAWSのチュートリアルを利用して、Hadoop + Hive環境を1から構築してみました。チュートリアルの内容 Step1: Set Up Prerequisites for Your Sample Cluster Sign Up for AWS 以前登録していたため、今回はスキップ Create an Amazon S3 Bucket S3とは、データを保存するサービス、詳しい内容はここ以前に利用したことがあったのでここもスキップ Create an Amazon EC2 Key Pair EC2とは、Amazonが提供してくれているWEBサーバ、詳しくはここ sshでログインするために、key pairを発行する必要がある。今回はここのサイトを参考

atsuizo 2017/10/31

リンク

http://www.w3ii.com/ja/hive/default.html

atsuizo 2017/10/31

もっともらしいチュートリアルだが、クリックイベント起こすたびに広告に飛ぶのウザイ。

hadoop
hive

リンク

あの日見たYARNのお仕事を僕達はまだ知らない。 - Qiita

あなたが実行したジョブのこと考えてない間、ずっとYARNがジョブのこと考えててくれてたんだみなさんはYARNの存在をどれだけ気づいてあげられているだろうか。よくSparkと一緒にYARNって単語はよくみるよねー知ってる知ってる、よく図とかでMapReduceとかの下にいるやつだよね？クラスタのリソースを管理してるんでしょ、たしか？いや、間違ってはいないし、やっていることをあたっているんだけど、実はいつも頑張ってくれているYARNのことをもっと理解してあげてもいいじゃないか! ただ、いざ調べてみると日本語の情報が少ないなんかざっくりリソース管理を行うぐらいしか書いてないもしくはいきなり細かい話から始まってよくわからないというのがちまたの現状なので、聖なる夜に暇を持て余した私が、いつも頑張ってるYARNのお仕事を紹介しようと思います。 YARNの素晴らしさを熱く語りたいところ

atsuizo 2017/10/06

hadoop

リンク

Hive――RDB使いのためのHadoopガイド

前回の記事では、手元のマシン上にHadoop環境を構築してHiveを導入し、基本的な操作を確認しました。今回は同じ環境を使って、より実践的なデータ操作についてみていきます。

atsuizo 2017/10/06

hadoop
hive

リンク

Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014～2019年にかけて年間平均成長率33.5％で拡大し、2019年には470億6100万円に達する。ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

atsuizo 2017/10/06

Spark
hadoop

リンク

SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪前書きみんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

atsuizo 2013/12/05

Hive使ったこと無いけど、Hive云々じゃなくて動作仕様と実行計画の理解なしにSQL書けば痛い目にあう、って話だよね。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

hadoopに関するatsuizoのブックマーク (39)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス