タグ

hadoopに関するatsuizoのブックマーク (39)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • Java11へのマイグレーションガイド ~Apache Hadoopの事例~

    This document discusses exactly once semantics in Apache Kafka 0.11. It provides an overview of how Kafka achieved exactly once delivery between producers and consumers. Key points include: - Kafka 0.11 introduced exactly once semantics with changes to support transactions and deduplication. - Producers can write in a transactional fashion and receive acknowledgments of committed writes from broke

    Java11へのマイグレーションガイド ~Apache Hadoopの事例~
  • CentOS7 で Apache Hadoop の完全分散モードを使ってみる - CUBE SUGAR CONTAINER

    以前、このブログでは OSS 版の Apache Hadoop を疑似分散モードでセットアップする方法を試した。 疑似分散モードというのは、一つのホスト上に必要なデーモンを全て立ち上げる方法を指す。 このモードを使うと HDFS が使えるような、なるべく番に近い環境が手軽に作れる。 blog.amedama.jp ただ、疑似分散モードでは当にちゃんと動作するのかが確認しづらい箇所もある。 それは、主にホストを分割してネットワーク越しにやり取りをする部分で、例えばファイアウォールの設定など。 そこで、今回は Apache Hadoop を完全分散モードでセットアップしてみることにした。 完全分散モードというのは番運用されるのと同じ環境で、それぞれのデーモンを異なるホストで動かすやり方。 完全分散モードのセットアップ方法については次のドキュメントを参照する。 Apache Hadoop

    CentOS7 で Apache Hadoop の完全分散モードを使ってみる - CUBE SUGAR CONTAINER
  • HDFS・YARNの完全分散クラスタを構築する - Qiita

    Outline HadoopのYARN上で色々なアプリを動かすことになったのでテスト環境を作ってみた。 基的な動作確認は擬似分散モードでいいはずだが、nodeを増やしたり別ホストにnodeを置いた状態でのテストをするために構築してみた。 環境 共通設定 OS: Ubuntu14.04 (AWS EC2) ユーザー: ubuntu VPC: 全マシンは同一subnetに配置 IP: PublicIPとPrivateIPのどちらも使用。 Hadoop 2.5.2 port: 全開放(22, 80, 8020, 8032, 8088, 50070が開いてればたぶん大丈夫) マシン・役割 client 自分のメインマシン。 主にsshで各ノードを操作したり、PublicIP経由で接続を確認したりする。 master Namenode/ResourceManager用 node1 datanode

    HDFS・YARNの完全分散クラスタを構築する - Qiita
  • Hadoopで完全分散モードを試す on VMWareFusion - Qiita

    やりたいこと Hadoopの完全分散モードの環境を最短(1時間以内)で構築したい。 Hadoopのマスター、スレーブは、多くの要素が共通なので、共通部分の構築を1つのVMで行った後、必要な数だけVMをコピーし、可能な限り作業の重複を無くしたい。プロビジョニングツール等も考えたが、結局Hadoop以外のノウハウに依存するので、今回は原始的手法で。 正直、めんどくさいのはVMをコピーした際にMacアドレスを振り直したりするのくらいです。 利用する環境 ホスト側 2009 lateのiMac(古い)32GB RAM Mac OS X El Capitan VMWareFusion8 ゲストOS CentOS6.7(7でもいい)構成はRAM1G,20GB HDの最小構成で作成。 Hadoopクラスタ構成 3台構成にします。 master(ネームノード:リソースマネージャ、ノードマネージャも) sl

    Hadoopで完全分散モードを試す on VMWareFusion - Qiita
  • Hive でダブルクオートで囲まれた CSV を扱えるようにする DDL の書き方 - Qiita

    CREATE EXTERNAL TABLE IF NOT EXISTS sample_table ( id INT, register_date STRING ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.dynamic_type.DynamicSerDe' WITH SERDEPROPERTIES ( 'serialization.format'='org.apache.hadoop.hive.serde2.thrift.TCTLSeparatedProtocol', 'quote.delim'='"', 'field.delim'=',' );

    Hive でダブルクオートで囲まれた CSV を扱えるようにする DDL の書き方 - Qiita
    atsuizo
    atsuizo 2017/11/13
    'quote.delim'='"'は'quote.delim'='\"'にしないと怒られてしまった。
  • HiveServer2とbeelineで遊んでみた記録 – OpenGroove

  • Apache Hiveのインストール手順 - Qiita

    概要 Apache Hadoop と Hive のインストール手順です。 それぞれ別記事に分けて書きます。 目次 Apache Hadoopのインストール手順 Apache Hiveのインストール手順 HadoopでWordCountをやってみる Apache Hadoopのインストール手順の続きです。 Hiveとは、Hadoopのデータを簡単に利用するためのソフトであり、 HiveQLという、SQL文に似た構文でデータを操作することができます。 この手順では、擬似的にスタンドアローンモード(ローカルモード)で構築します。 環境 CentOS 7.1 Hadoop 2.8.0 MariaDB 5.5.52 java 1.8.0 Hive 2.3.0 HBase 1.3.1 このページでは太字のもののインストールを行います。 Apache Hiveのセットアップ 以下のページからApache

    Apache Hiveのインストール手順 - Qiita
  • CentOS7への擬似分散モードでのhadoop及び、hiveセットアップ手順 | takemikami's note

    CentOS7にApache Hadoop及びHiveを擬似分散モードでセットアップする手順のメモです。 hiveのmetastoreにはmariadb(mysql)を使用します。 CentOS7はminimaldvdからデフォルト状態でインストールした前提です。 使用したDVDイメージ: CentOS-7-x86_64-Minimal-1511.iso 以下の流れでセットアップをしていきます。 前提となる設定などApache HadoopのセットアップApache Hiveのセットアップ前提となる設定などSELINUXの無効化「/etc/selinux/config」を編集してSELINUXを無効にしておきます。 SELINUX=disabled 編集した後は、「setenforce 0」するか、rebootしておきます。 OpenJDKのインストール以下のようにして、OpenJDKをイ

    CentOS7への擬似分散モードでのhadoop及び、hiveセットアップ手順 | takemikami's note
  • CDH5で擬似分散モードのHadoopクラスタを構築する - TASK NOTES

    CDH5を使用した擬似分散モードでのHadoopクラスタ構築方法です。ローカルマシンでメモリが少ないと複数のVMを立ち上げて完全分散モードで構築するのは難しいですが、擬似分散モードならVMも一つで済み、少ないメモリで構築することが可能です。 仮想マシン(VM)の用意 VirtualBoxやVagrantを使用してCentOS6をインストールした仮想マシンを用意します。 MacでVirtualBoxにCentOS7をインストールしてSSH接続をするまでの方法 - TASK NOTES MacでVagrantを使用してVirtualBoxに仮想マシンを作成する - TASK NOTES JDKのインストール OracleのJDKをインストールします。 Java Development Kit Installation によるとJDK1.8も対象です。JDKのインストールについての詳細は Cen

    CDH5で擬似分散モードのHadoopクラスタを構築する - TASK NOTES
  • CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER

    Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。 この Hadoop/HDFS を中心として Apache Hive や Apache HBase などのミドルウェアが動作する一大エコシステムが形成されている。 今回は、そんな Apache Hadoop を CentOS7 で使ってみることにする。 尚、Apache Hadoop 関連の OSS をインストールするときは、いくつかの会社が出しているディストリビューションを利用することが多い。 例えば Cloudera CDH や Hortonworks HDP など。 しかし、今回はそれらのディストリビューションを使

    CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER
  • CentOSでHadoopとHiveを試してみる(2015年秋編) - Qiita

    やりたいこと Hadoopファミリーは日々進化しますが、とはいえ、MapReduceとHiveのニーズは不滅です。現行(最新)かつ素のHadoopとHiveをCentOS上に構築して動作確認してみます。 環境 CentOS6.7(7でも基同じ:手元にイメージがあっただけ・・・) Hadoop 2.7.1 Hive 1.2.1 準備 CentOS6.7をMinimal構成でインストールした後、 yum update yum groupinstall 'Development tools' yum install wget を実行した状態。テスト自体は、VMWareFusion8上で行っているが、多分依存などは無い。 ssh 疑似分散モードを利用するためには、ssh localhostでパスフレーズ無しでログインできるようにしておく必要があります。

    CentOSでHadoopとHiveを試してみる(2015年秋編) - Qiita
  • Apache Hadoopのインストール手順 - Qiita

    概要 Apache Hadoop と Hive のインストール手順です。 それぞれ別記事に分けて書きます。 目次 Apache Hadoopのインストール手順 Apache Hiveのインストール手順 HadoopでWordCountをやってみる Hadoopとは、ビッグデータを取り扱うための、分散処理のフレームワーク、基盤です。 この手順では、擬似的にスタンドアローンモード(ローカルモード)で構築します。 環境 CentOS 7.1 Hadoop 2.8.0 MariaDB 5.5.52 java 1.8.0 Hive 2.3.0 HBase 1.3.1 このページでは太字のもののインストールを行います。 SELINUXの無効化 SELINUXを無効にします。

    Apache Hadoopのインストール手順 - Qiita
  • Hiveハンズオン

    こちらのスライドは以下のサイトにて閲覧いただけます。 https://www.docswell.com/s/ockeghem/ZM6VNK-phpconf2021-spa-security シングルページアプリケーション(SPA)において、セッションIDやトークンの格納場所はCookieあるいはlocalStorageのいずれが良いのかなど、セキュリティ上の課題がネット上で議論されていますが、残念ながら間違った前提に基づくものが多いようです。このトークでは、SPAのセキュリティを構成する基礎技術を説明した後、著名なフレームワークな状況とエンジニア技術理解の現状を踏まえ、SPAセキュリティの現実的な方法について説明します。 動画はこちら https://www.youtube.com/watch?v=pc57hw6haXk

    Hiveハンズオン
  • AWSのチュートリアル 〜Analyze Big Data with Hadoop編〜 - Qiita

    AWSのチュートリアルの日語メモ はじめに 最近業務でAWS上に構築したHiveを利用するのですが、より理解を深めたいと思い、今回はAWSのチュートリアルを利用して、Hadoop + Hive環境を1から構築してみました。 チュートリアルの内容 Step1: Set Up Prerequisites for Your Sample Cluster Sign Up for AWS 以前登録していたため、今回はスキップ Create an Amazon S3 Bucket S3とは、データを保存するサービス、詳しい内容はここ 以前に利用したことがあったのでここもスキップ Create an Amazon EC2 Key Pair EC2とは、Amazonが提供してくれているWEBサーバ、詳しくはここ sshでログインするために、key pairを発行する必要がある。 今回はここのサイトを参考

    AWSのチュートリアル 〜Analyze Big Data with Hadoop編〜 - Qiita
  • http://www.w3ii.com/ja/hive/default.html

    atsuizo
    atsuizo 2017/10/31
    もっともらしいチュートリアルだが、クリックイベント起こすたびに広告に飛ぶのウザイ。
  • あの日見たYARNのお仕事を僕達はまだ知らない。 - Qiita

    あなたが実行したジョブのこと考えてない間、ずっとYARNがジョブのこと考えててくれてたんだ みなさんはYARNの存在をどれだけ気づいてあげられているだろうか。 よくSparkと一緒にYARNって単語はよくみるよねー 知ってる知ってる、よく図とかでMapReduceとかの下にいるやつだよね? クラスタのリソースを管理してるんでしょ、たしか? いや、間違ってはいないし、やっていることをあたっているんだけど、実はいつも頑張ってくれているYARNのことをもっと理解してあげてもいいじゃないか! ただ、 いざ調べてみると日語の情報が少ない なんかざっくりリソース管理を行うぐらいしか書いてない もしくはいきなり細かい話から始まってよくわからない というのがちまたの現状なので、聖なる夜に暇を持て余した私が、いつも頑張ってるYARNのお仕事を紹介しようと思います。 YARNの素晴らしさを熱く語りたいところ

    あの日見たYARNのお仕事を僕達はまだ知らない。 - Qiita
  • Hive――RDB使いのためのHadoopガイド

    前回の記事では、手元のマシン上にHadoop環境を構築してHiveを導入し、基的な操作を確認しました。今回は同じ環境を使って、より実践的なデータ操作についてみていきます。

    Hive――RDB使いのためのHadoopガイド
  • Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014~2019年にかけて年間平均成長率33.5%で拡大し、2019年には470億6100万円に達する。 ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

    Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた
  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

    atsuizo
    atsuizo 2013/12/05
    Hive使ったこと無いけど、Hive云々じゃなくて動作仕様と実行計画の理解なしにSQL書けば痛い目にあう、って話だよね。