タグ

Hadoopに関するatm_09_tdのブックマーク (85)

  • Apache Hive を HiveServer2 経由で操作する - CUBE SUGAR CONTAINER

    Apache Hive を操作する方法としては、以前から hive というコマンドラインツールが提供されている。 ただ、この方法だと hive コマンドがインストールされたホストでしか Apache Hive を操作できない。 また、Hadoop エコシステムを形成する別のソフトウェアと連携させるときにも共通プロトコルがないと都合が悪い。 そのため、今では HiveServer2 というサービスを起動して JDBC 経由で操作する方法が用意されている。 今回は、そのやり方について書く。 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.11.1.el7.x86_64 $ hive --version Hive 2.3.2 Git git://sta

    Apache Hive を HiveServer2 経由で操作する - CUBE SUGAR CONTAINER
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • CentOS7 で Apache Hadoop の完全分散モードを使ってみる - CUBE SUGAR CONTAINER

    以前、このブログでは OSS 版の Apache Hadoop を疑似分散モードでセットアップする方法を試した。 疑似分散モードというのは、一つのホスト上に必要なデーモンを全て立ち上げる方法を指す。 このモードを使うと HDFS が使えるような、なるべく番に近い環境が手軽に作れる。 blog.amedama.jp ただ、疑似分散モードでは当にちゃんと動作するのかが確認しづらい箇所もある。 それは、主にホストを分割してネットワーク越しにやり取りをする部分で、例えばファイアウォールの設定など。 そこで、今回は Apache Hadoop を完全分散モードでセットアップしてみることにした。 完全分散モードというのは番運用されるのと同じ環境で、それぞれのデーモンを異なるホストで動かすやり方。 完全分散モードのセットアップ方法については次のドキュメントを参照する。 Apache Hadoop

    CentOS7 で Apache Hadoop の完全分散モードを使ってみる - CUBE SUGAR CONTAINER
  • Python から Hadoop Streaming を使ってみる - CUBE SUGAR CONTAINER

    今回は、任意のプログラミング言語から Apache Hadoop を使うことのできる Hadoop Streaming という機能を使ってみる。 通常、Hadoop を使って MapReduce のジョブを直接扱うときは Java を使ってマッパーとリデューサーを書くことになる。 ただ、ご存知の通り Java のソースコードというのは重厚長大で、なかなか読み書きがしやすいとは言いにくい。 そこで、任意のプログラミング言語、具体的には標準入出力を処理する実行ファイルさえあれば使える機能ができた。 それが Hadoop Streaming というもの。 この機能を使うことで低レイヤーMapReduce の処理を、使い慣れたプログラミング言語を使うなど好きなやり方で記述できる。 ちなみに、今回のエントリでは事前に Apache Hadoop がセットアップされていることを前提に書いていく。

    Python から Hadoop Streaming を使ってみる - CUBE SUGAR CONTAINER
  • CentOS7 で Apache Hive を使ってみる - CUBE SUGAR CONTAINER

    今回は Apache Hadoop 上で動作する MapReduce アプリケーションの一つ Apache Hive を使ってみる。 Apache Hive を使うと Hadoop/HDFS の上で HiveQL という SQL のサブセットが使えるようになる。 実行したクエリは MapReduce のジョブに変換されて Hadoop クラスタで分散並列処理されることから高スループットが得られる。 ただし、MapReduce アプリケーションのご多分に漏れずレイテンシーはでかい。 ようするに一つ一つのクエリの実行自体には時間がかかってしまう。 また、一度追加したレコードについては基的に更新したり削除することができない。 それらの特性から、オンライントランザクション処理 (OLTP) のような用途には全く向いていない。 代わりに、どんどん一方的にデータが蓄積されていくような状況で後からバッ

    CentOS7 で Apache Hive を使ってみる - CUBE SUGAR CONTAINER
  • 「素のHadoop」をインストールして、簡単な処理を実行する

    書籍の中から有用な技術情報をピックアップして紹介するシリーズ。今回は、秀和システム発行の書籍Hadoopファーストガイド(2012年9月20日発行)』からの抜粋です。 ご注意:稿は、著者及び出版社の許可を得て、そのまま転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 Hadoopを利用する 前回まで、Hadoopの仕組みや登場した背景や処理の流れを説明してきました。今回は、実際にHadoopを利用できる環境を構築し、その動きを少しだけ実践してみましょう。 Hadoopを利用できる環境として、現在は以下のような方法が考えられます。 素のHadoopをそのまま利用 CDH(Cloudera's Distribution including Apache Hadoop)を利用 MapRを利用 EMR(Amazon Elastic M

    「素のHadoop」をインストールして、簡単な処理を実行する
  • バッチの未来、どうするHadoop - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 ITproの『DBの未来、どうするHadoop』のタイトルに釣られてみたw (以下長々書いたけど、結局言いたいことは、DBとHadoopは関係無いってことと、タイトルについて何か勘違いしたっぽいということだけだった^^;) 僕の意見では、Hadoopはバッチ処理を分散して実行する基盤である。データを溜めるのは副次的な効果に過ぎない。(暴論w) もちろん、そもそも分散処理を行う必要があるのは処理対象データが大量だからなので、データの溜め方も必須ポイントだし、Hadoopが分散処理する原理も密接に結びついているのだが。 あらかじめ断っておくと、自分は非構造化データとか分析とか機械学習には興味が無い。 自分がHadoopに興味を持ったのは、自分が担当していた“RDBを対象にした

    バッチの未来、どうするHadoop - ひしだまの変更履歴
  • めざせ!Hadoopエンジニア一覧

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    めざせ!Hadoopエンジニア一覧
  • 【連載】ビッグデータとHadoop

    航空機の技術とメカニズムの裏側 第449回 最近の時事ネタ(8)横須賀基地に来航した伊空母「カヴール」の航空関連艤装 2024/09/03 09:05 連載

    【連載】ビッグデータとHadoop
  • Clouderaが「SQL-on-Hadoop」のImpala 1.0正式版リリース

    Hadoopのディストリビューションベンダとして知られるClouderaは今日、Hadoopのクラスタに対してSQLでの問い合わせを実現するオープンソースソフトウェア「Cloudera Impala」のバージョン1.0を公開しました。製品版は「Cloudera Enterprise RTQ」として販売されます。 Release - Cloudera Ships Impala 1.0: Industry's First Production-Ready SQL-on-Hadoop Solution Clouderaは、Hadoopで構築された大規模な分散データベースに対してSQLで高速に問い合わせが可能になることにより、企業でのデータウェアハウス用途などHadoopでの新たな市場を開拓できるとしています。 MapReduceを使わず独自の分散クエリエンジン Impalaはバッチ処理をベースに

    Clouderaが「SQL-on-Hadoop」のImpala 1.0正式版リリース
  • Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO

    よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

    Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO
  • Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

    Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

    Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開
  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
  • 日々進化するHadoop。これまでのおさらいと最近の動向(後編)

    Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 (記事は「日々進化するHadoop。これまでのおさらいと最近の動向(前編)」の続きです) Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。 対外的には

    日々進化するHadoop。これまでのおさらいと最近の動向(後編)
  • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

    大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

    日々進化するHadoop。これまでのおさらいと最近の動向(前編)
  • livedoor Techブログ : 第2回NHNテクノロジーカンファレンス開催!

    (※ 2012.7.27追記 : 講演5を追加しました) NHN技術部会、株式会社データホテルの伊勢幸一です。 おまたせいたしました。 お約束通り、来る8月18日(土)、第2回NHNテクノロジーカンファレンスを開催します! 今回のテーマはこちら! 「H (エッチ)」 もともと当は第2回テーマとして今流行のHTML5大特集を予定していたのですが、前回のカンファレンスでスピーカーをして頂いたGREEの藤さんから、 「LINEで使っているHBaseの話を聞きたい」 という余計な突っ込みというか、プレッシャーを与えられまして、思わず、 「じ ・・・・ 次回に ・・・・」 と言ってしまい(やっべー!次回はHTML5で行く予定だったんだけど)、HTML5とHBaseじゃ全くカテゴリーが違うし関連性も無いのでどうするか、何か共通性が無いか?と、悩んでおりましたところ、 「あれ?両方とも頭文字が「H」

  • Distributed Control Break - 急がば回れ、選ぶなら近道

    まず始めに断っておきますが、このワードの発案は@marblejenkaさんによるものです。個人的には、言い得て妙だと思っています。この手の言葉の使い方のセンスはマーブル先生は時々天才な時があり、このワーディングもそれに属します。尚、社内では「この言い方は若干、一種の中二病的な側面もある」という意見のため、公式のドキュメントから削除されています。残念です。よってブログに残す。 まずもってControl Breakですが、COBOLの必殺技のひとつで最上位古代魔法(ハイ・エンシェント・ロア)のひとつに属します。JavaとかJavaとかJavaとか、な人たちにはちょっと意味がわからない感じになりますが、ある一定の処理の固まりを順におこなっている時に、なにかのタイミングで(大抵はキーの切り替え)で別の処理を一時的に行う(コントロールがブレイクする)ことを言います。 まず単純な例では、例えば、明細が

    Distributed Control Break - 急がば回れ、選ぶなら近道
  • 基礎から解説!企業を変えるHadoop

    「ビッグデータ」をスマートに処理をする新しい道具、それがオープンソースミドルウエアのApache Hadoop(ハドゥープ)です。このHadoopの力で新たな収益を獲得する企業が増えています。連載ではこのHadoopを基礎から説明していきます。まず今さら聞けないHadoopの基、もう一度おさらいしたいアーキテクチャーを解説。分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及していきます。2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込みます。 目次

    基礎から解説!企業を変えるHadoop
  • ビッグデータ処理の常識をJavaで身につける

    Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 検索エンジンの常識をApache Solrで身につける ビッグデータ処理の常識をJavaで身につける(1) 検索エンジンの概要と周辺技術について解説し主な利用方法や実装ソフトウェア、Solrの利用方法などを簡単に紹介します

  • Elastic MapReduceとHiveの概要と利用準備

    必要な環境 WindowsMacなどインターネットが利用可能なOS環境 クラウドでHadoopを使うメリット 昨今ビッグデータ格納の基盤としてHadoopを使う事例が増えてきています。大規模なストレージを必要とせずにビッグデータを扱える環境は非常に魅力的です。 HadoopはGoogleの検索エンジンの基盤として開発されたGoogle File SystemおよびMapReduceの技術仕様を元に開発されたオープンソースソフトウェアです。ファイルを複数のサーバに冗長化した上で分散配置するHDFS(Hadoop Distributed File System)と、分散配置されている大量データから必要なデータの抽出や分解を行うHadoop MapReduceにより構成されています。 現在、Hadoopはクレジットカード会社の売上データの解析や、国立国会図書館が提供している検索サービスのインデ

    Elastic MapReduceとHiveの概要と利用準備