タグ

hadoopに関するkwyのブックマーク (23)

  • クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016

    Rejected HCJ 2016 で発表した資料です。 http://www.zusaar.com/event/17397003Read less

    クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016
    kwy
    kwy 2016/02/14
  • フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

    はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

    フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
    kwy
    kwy 2015/05/25
  • 2014年の象(Hadoop)四方山話

    Spark, SQL on Hadoop etc. Advent Calendar 2014 1日目、およびHadoop関連(全部俺) Advent Calendar 2014の1日目です。 初日なので、昨年ブログに続いて2014年のHadoop関連の話題をまとめます。 ※このブログの内容は所属している組織には関係なく、個人的な雑感です。間違いがあればご指摘下さい。 ※なお、中立的に書いているつもりですが、多少偏りがあるかもしれません。が、特に悪意はありません :p 俺的Hadoopの話題2014: ベスト3 Apache Sparkの盛り上がりが加速 SQL on Hadoop は混沌 Hadoopは堅調に進化。徐々に消えていく!? (次点: Hueも大幅に進化してますが、これはいずれ紹介します) 1. Apache Sparkの盛り上がりが加速 今年になってますます盛り上がっているAp

    2014年の象(Hadoop)四方山話
    kwy
    kwy 2014/12/31
  • 『Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました』

    (この記事は、Hadoop Advent Calender 2013 の12日目の記事です) こんにちは、Amebaのログ解析基盤Patriotの運用をしている、鈴木(@brfrn169)と柿島大貴です。 Patriotについては以下をご覧ください。 http://ameblo.jp/principia-ca/entry-10635727790.html http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 今回、Amebaのログ解析基盤PatriotにCloudera ImpalaとPrestoを導入しました。 Cloudera ImpalaとPrestoのインストール方法や詳細ついては、下記URLをご覧ください。 Cloudera Impala http://www.cloudera.com/content/clo

    『Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました』
    kwy
    kwy 2013/12/15
  • Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

    最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメント まずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。 全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。 私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

    Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮
    kwy
    kwy 2013/08/06
  • Hadoop vs MPPデータベース

    Kazuki Ohta @kzk_mover MPP DBとして古参のSybaseIQは15年以上存在しており、値段感も手頃な奴もある。対してHadoopを使ってる人は理由があるし、安くて手軽なMPPデータベースが出てきたから安易にHadoopからそちらに移るのはシステムのPros/Consを正しく理解していなかったケース。 Kazuki Ohta @kzk_mover Twitter/Evernote/Netflixを見ていると、生の非構造化データをとにかくHadoopに貯め、MRで構造化したデータキューブをMPPDBに入れ低レイテンシで解析するのが勝ちパターン。大企業では全データソースのスキーマをIT部門が管理するのは困難もしくは不可能。

    Hadoop vs MPPデータベース
    kwy
    kwy 2013/05/28
  • 第7回 リクルート式Hadoopの使い方 | gihyo.jp

    前回は、リクルートグループでのHadoopを利用したサービス活用事例を紹介しました。今回は、Hadoop Conference Japan 2013 Winterで弊社の石川信行が講演した「リクルート式Hadoopの使い方 2nd Edition」の紹介をします。 図1 Hadoop Conference Japan 2013 Winterでの講演の様子 ビックデータを扱う体制と環境の進化 リクルートで、ビックデータに挑むアナリストは2種類います。 コンサル型データアナリスト コンサル型データアナリストは、事業の抱える課題解決に向けた仮説を立て、具体的な解決案の提案を行います。分析力、論理的思考力、統計などの数学的知識が必要とされます。 エンジニア型データアナリスト エンジニア型データアナリストは、データマイニングやマシンラーニング(機械学習)などを行い、その結果を元に一定の規則性を見つけ

    第7回 リクルート式Hadoopの使い方 | gihyo.jp
  • Hadoop and the Data Scientist

    Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit

    Hadoop and the Data Scientist
    kwy
    kwy 2012/08/18
  • アトムとビット〜Hadoopでバッチが速くなって何がうれしいか? - 急がば回れ、選ぶなら近道

    まず、社内のオープニングで説明した内容だったりするのですが、一回まとめておきたいので。 断っておくとこの言い方はニコラス・ネグロポンティから取っています。彼の主張は明確でいままでアトム(物質)的な存在だったものが、ビット(電子情報)的な存在に凌駕される、いや大きく姿を変えてるという指摘でございますね。Being digitalが出版されたのが95年なので、もう15年以上になるわけですね。ま、ざっくりすぎてアレですが。・・ワーディングとして便利なので利用させてもらいます。 まず、主題は何かというと、「バッチが速くなって何がうれしいのか?」という問題の背景をちゃんと説明しておきたい。もともとHadoopで何がしたかったのかというと、そもそもバッチのスピードを上げたかった。そもそもRDBMSではまぁ限界があったというのが事の起こり。んで分散処理を行うとIOが分散されるので、スピードがあがりますね

    アトムとビット〜Hadoopでバッチが速くなって何がうれしいか? - 急がば回れ、選ぶなら近道
  • 第2回 レコメンドシステムの実装と課題 | gihyo.jp

    今回はレコメンドシステムの実装の問題と、その解決策として利用するHadoopについて説明します。 今回のポイントは以下の通りです。 スケールアップの限界 分散処理フレームワークの民主化 Hadoop Map Reduceの概要 増え続けるデータをどう扱うか レコメンドシステムを協調フィルタリングのうち、ユーザベース方式により実装することを考えます。このシステムでは次のような映画の評価履歴を使い、「⁠この映画を評価した人はこの映画も評価しています」という映画の推薦を行います。 駄右衛門、ザスーラ、5、2009/12/21、・・・・ 駄右衛門、ジュマンジ、5、2009/12/28、・・・・ 菊之助、ブルースブラザーズ、5、2009/12/29、・・・・ 利平、ザスーラ、4、2010/01/01、・・・・ 十三、ハングオーバー、4、2010/01/01、・・・・ 利平、ジュマンジ、4、2010/

    第2回 レコメンドシステムの実装と課題 | gihyo.jp
  • https://garagekidztweetz.hatenablog.com/entry/20110926/1317048409

  • Hadoopを用いたクラスタコンピューティング環境の構築 - SourceForge.JP Magazine : オープンソースの話題満載

    ペタバイト規模のデータを格納させる分散コンピューティング用プラットフォームを探しているのであれば、そのフレームワークとして Hadoop の使用を検討すべきだろう。HadoopはJavaベースで作成されているため、LinuxWindows、Solaris、BSD、Mac OS Xにて使用できる。こうしたHadoopを実際に採用している組織に共通するのは、安価(特殊なハードウェアが不要)かつ効率的でスケーラビリティと信頼性を兼ね備えたプラットフォームによる、膨大な量のデータ処理を必要としているという点だ。 Hadoopでは、こうした膨大な量のデータを格納するために、Hadoop Distributed File System(HDFS)を採用している。実際、HDFSのマスタ/スレーブアーキテクチャは、Hadoopのクラスタ機能の中核を成している。ここでサポートされているのは、ファイルシステ

    Hadoopを用いたクラスタコンピューティング環境の構築 - SourceForge.JP Magazine : オープンソースの話題満載
  • MacにHadoop環境を整える - 元データ分析の会社で働いていた人の四方山話

    mongoDBの勉強会でMapReduceの話が出てましたし、やはりHadoopは非常に気になります。 ということで、 Hadoop on MacOSX - Happy-Camper Street MacでHadoopスタンドアローンモード - kj-kiのはてなダイアリー をMacにHadoop環境を作る参考に、棚に眠っていたSoftware Design (ソフトウェア デザイン) 2010年 05月号 [雑誌] 技術評論社 2010-04-17 売り上げランキング : Amazonで詳しく見る by G-ToolsをHadoopの実行テストの参考にしました。 やったこと Hadoopの取得 $JAVA_HOMEの設定 hadoopユーザー(Hadoopを実行するユーザー)の作成 hadoopユーザーの公開鍵によるログイン設定 hadoopをスタンドアロンモードで動かす hadoop

  • 基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する

    ウルシステムズは2011年3月31日、「Asakusa」をオープンソースソフトウエア(OSS)として公開した(関連記事:Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌)。同社はある顧客の基幹バッチシステムをAsakusaで構築している。Hadoopで基幹バッチ処理を行うにあたっての問題をどう解決したのか。なぜOSSとして公開したのか。ウルシステムズ 取締役 神林飛志氏に聞いた。 ハードウエア、ソフトウエア、SIを含めれば1000億円は軽く超えると見ている。特に大きいのは基幹バッチ処理システムだ。BI(ビジネスインテリジェンス)の案件は1件3000万円から1億円くらいだが、基幹バッチ処理の案件は1件1億円以上。 バッチ処理システムは“残ってしまっている”ものが多い。手をつけたくとも、わかる人がいなくなって保守できなくなりつつある。再構築したいというニーズは高い。実際に引き合

    基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する
  • Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌

    Hadoopは分散処理によって、大量データの一括処理をRDBMSよりも大幅に高速化できるミドルウエアで、これまではログ解析など特定の分野で使われてきた。これを、基幹バッチ処理に適用するためのフレームワークが登場した。オープンソースソフトウエアの「Asakusa」である。 連載では、Asakusaの開発責任者がその全体像を解説する。Hadoopがなぜ速いのかを解説したあと、Asakusaの構成要素や設計方法、実際のコーディング例を示す。

    Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌
  • Hadoop Conference Japan 2011 #hcj2011

    Koichi Hamada @hamadakoichi 2/22 Hadoop Conference Japan 2011、『モバゲーの大規模データマイニング基盤におけるHadoop活用』について話します。USTありますので #TokyoWebmining のみなさんもぜひ。 http://bit.ly/i0tmmD #hcj2011 2011-02-21 11:47:01 edy_choco_edy @edy_choco_edy RT @hamadakoichi: 2/22 Hadoop Conference Japan 2011、『モバゲーの大規模データマイニング基盤におけるHadoop活用』について話します。USTありますので #TokyoWebmining のみなさんもぜひ。 http://bit.ly/i0tmmD #hcj2011 2011-02-21 11:48:23

    Hadoop Conference Japan 2011 #hcj2011
  • Hadoopを試してみる – ぱんぴーまっしぐら

    ubuntu 10.04 LTS via:Hadoop (CDH3) Quick Start Guide – Documentation – Cloudera Wiki sun-javaがリポジトリからなくなったので外部リポジトリを利用 sudo aptitude install python-software-properties sudo add-apt-repository 'deb http://archive.canonical.com/ lucid partner' sudo apt-get update sudo aptitude install sun-java6-jdk Cloudera版が楽そうなので利用する。 sudo add-apt-repository 'deb http://archive.cloudera.com/debian lucid-cdh3 contr

  • Hadoop使ってる?

    NTTデータのHadoopアプライアンス「Lindacloud for Hadoop」のプラットフォームとなる「Lindacloud」 米Googleの分散データ処理技術をオープンソースとして実装した「Hadoop」――。膨大なデータを高速に解析するツールとして桁違いの可能性を持ち、国内の一般企業でも利用が始まりました。 楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」などにHadoopを使用。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムなどにHadoopを採用しました。 システムインテグレーターはHadoop関連のツールやサービスを相次いで発表しています。Hadoopを企業情報システムに組み込みやすくなってきました。 Hadoopの導入事例 グーグル発「Hadoop」、日企業も利用へ リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡

    Hadoop使ってる?
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
  • リアルタイムに近づくバッチ処理、大容量・高速・安価が身近に

    今回取り上げた分散バッチ処理はいずれも、トランザクション処理システムが管理するデータをテキストデータなどとして複製してから処理を行う。データウエアハウス(DWH)よりも、導入コストや開発コストが安価だ 同社は2009年10月、当日の売り上げを店舗別、商品別に分析するために使用していたデータウエアハウス(DWH)ソフトを廃棄した。売り上げ分析をやめたわけではない。DWHを、「テキストファイルを使ったバッチ処理」に置き換えたのだ。 現在同社は、POSレジから集めた売り上げデータをテキストとして保存し、1時間ごとにバッチ処理を行って、店舗別、商品別の売上高を集計する。非常に古典的なバッチ処理に見えるが、処理時間は大幅に短縮した。 同社は全国に70店舗を展開し、合計3万アイテムの商品を扱う。その3万アイテムすべてに対して、売り上げ個数や粗利益、値引き消化率(値引きをして売れた商品の比率)、廃棄率、

    リアルタイムに近づくバッチ処理、大容量・高速・安価が身近に