[B! hadoop] [4ページ] wasaiのブックマーク

wasai id:wasai

hadoopに関するwasaiのブックマーク (271)

「Hadoop Summit 2012」に見るツール/事例の最新動向
本連載では、オープンソースの大規模分散処理基盤「Hadoop」を利用している技術者向けに、数回にわたりHadoop運用の最新情報やノウハウ、活用の勘所を紹介する。 HadoopやHadoop周辺ツールは、現在も活発に開発が進んでおり、安定化に加えて高機能・多機能化も図られ、適応領域が広がりつつある。それだけにHadoopユーザーは周辺ツールや利用動向について、常にアンテナを張っておくべきであろう。そこで、今回は2012年6月13日と14日の2日間、米国カリフォルニア州サンノゼにて開催された、Hadoop Summit2012の模様を要約して紹介する。米ヤフー!と、米ホートンワークス（米ヤフー!のHadoop専門チームがスピンアウトしたHadoop専業ベンチャー企業。2011年6月設立）が共催する同イベントは、今回で5回目の開催となる。 2008年の第1回開催時は200人だった参加者が今
wasai 2012/08/22
Hadoop
リンク
第2回NHNテクノロジーカンファレンスでしゃべってきた - たごもりすメモ
勤務先が主催でNHNテクノロジーカンファレンスという技術者向けイベントをやってるんだけど、その登壇者として社外の誰かから推薦されたらしいので(何故……)、ひとセッションしゃべってきた。なお「HBase at LINE」の発表は「HBaseについて誰かいない？」と主催の伊勢さんに聞かれたのに自分が推薦しました。みんなありがたがるといいよ。他の人の話も、懇親会でのあれやこれやも大変楽しかった。HBaseなー、火山かー、みたいな。そのうち tech blog にまとめエントリが上がるんじゃないでしょうか。それまでこっちでも見ると当日の状況が多少なりわかるかもしれません。第2回NHNテクノロジーカンファレンス #nhntech まとめ - Togetterまとめで、自分がしゃべったときのスライドはこちら。(slideshareのembed用タグを埋めてもはてなダイアリーに弾かれてしまう…… 対
wasai 2012/08/20
HBase

nhntech

Hadoop

Hive

Fluentd
リンク
ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを
wasai 2012/08/18
TechCrunch

Google

Hadoop

ビッグデータ

Dremel

データマイニング

OSS

Apache
リンク
mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，
wasai 2012/08/09
mixi

Apache

JSON

Hadoop

hive
リンク
Hadoopクラスタでulimitを設定するときの注意点 - たごもりすメモ
Hadoopクラスタを運用する際に ulimit で nofile (プロセスがopenできるファイルディスクリプタ数の上限)の設定を変更しておくべき*1というのはもはや常識的なお話ですが、そこには実は罠がある。たぶんRHELのデフォルト通りならハマらないんだろうけど、手を入れている環境だとハマる。ので、その話。要するにハマった。のを解決したよ多分！まだ最終的な確認できてないけど！各書籍での解説とりあえず、国内で売られているHadoop関連書籍の記述を確認しておこう。まずHadoop徹底入門。ファイディスクリプタの設定は、/etc/security/limits.conf に記述します。エディタを利用して、limits.conf に以下のように記述します。ここでは、Hadoopの各種ノードを起動するユーザーを hadoop とします[12]。 hadoop soft nofile
wasai 2012/07/31
Hadoop
リンク
目指せHadoopエンジニア-管理者・DBエンジニア編-
前編の「開発者編」では、Apache Hadoop（以降Hadoop）の歴史と概要に加え、開発者に必要な知識を客観的に証明できる認定資格、CCDH(Cloudera Certified Developer for Apache Hadoop)を紹介しました。後編では、Hadoopの管理者に求められる知識に加え、Hadoopの管理者向け認定資格、また最近のHadoop関連の話題とカラム指向分散データベースであるApache HBaseの紹介、およびHBaseの認定資格を紹介します。 Hadoopの管理者に求められるもの前編で紹介したように、Hadoopでは一台から数千台規模のクラスタを構築することが可能であり、必要に応じてスケールアウトさせることができます。Hadoopは非常に強力ですが、管理するのはそれほど簡単ではありません。言い換えると、正しい知識を持たずに運用すると、大きなトラブルが
wasai 2012/07/25
HDFS

Cloudera

Hadoop

HBase
リンク
livedoor Techブログ : 第2回NHNテクノロジーカンファレンス開催！
(※ 2012.7.27追記 :　講演5を追加しました) NHN技術部会、株式会社データホテルの伊勢幸一です。おまたせいたしました。お約束通り、来る8月18日（土)、第2回NHNテクノロジーカンファレンスを開催します！今回のテーマはこちら！「H （エッチ)」もともと本当は第2回テーマとして今流行のHTML5大特集を予定していたのですが、前回のカンファレンスでスピーカーをして頂いたGREEの藤本さんから、「LINEで使っているHBaseの話を聞きたい」という余計な突っ込みというか、プレッシャーを与えられまして、思わず、「じ・・・・次回に　・・・・」と言ってしまい(やっべー！次回はHTML5で行く予定だったんだけど)、HTML5とHBaseじゃ全くカテゴリーが違うし関連性も無いのでどうするか、何か共通性が無いか？と、悩んでおりましたところ、「あれ？両方とも頭文字が「H」
wasai 2012/07/25
イベント

NHN

Hadoop

HBase

HTML5

Hive

Fluentd
リンク
新技術・新バージョンへの移行談義
hadoop の話から struts の話に移り、そして新バージョンへの移行の成否の鍵を巡る一連のチャット。
wasai 2012/07/09
Togetter

Twitter

Hadoop

struts
リンク
CDH4説明会に行って参りました。 - 急がば回れ、選ぶなら近道
CDH4説明会に行って参りました。日時：2012年7月6日（金）場所：ベルサール八重洲タイトル：進化するHadoop：CDH4とCloudera Enterprise4.0のご紹介アジェンダは以下の通り。 18:30 開場 19:00 開会のご挨拶（ジュゼッペ小林さん） 19:10 CDH4とCloudera Enterprise4.0（川崎さん）〜エンタープライズにおけるHadoopの標準〜 19:50 CDH4はなぜエンタープライズに適しているのか（嶋内さん）〜新しく導入された技術から読み解く〜 20:30 懇親会 21:00 閉会以下、内容と感想をまとめておきます。スライドはあとで上がるそうなので、セミナーの詳細はそちらを参考にした方がよろしいかと。あとはメモも上げられているので、こちらを見ると詳細がわかるかと。 http://d.hatena.ne.jp/gara
wasai 2012/07/09
Cloudera

Hadoop
リンク
Clouderaトレーニングコース受講者向けCDH4説明会でとったメモを公開しよう - #garagekidztweetz
ツイートSource: cloudera.com via garage-kid on Pinterest Clouderaトレーニングコース受講者向けCDH4説明会にお呼ばれしたので、行って参りました。今日はそのときわたしがとったメモを公開しようと思います。〜Clouderaトレーニングコース受講者様向けCDH4説明会概要〜 ▼　日時：2012年7月6日（金） ▼　会場：ベルサール八重洲 3階ルーム４ (http://www.bellesalle.co.jp/bs_yaesu/access.html) ▼　タイトル：進化するHadoop：CDH4とCloudera Enterprise4.0のご紹介 Cloudera のトレーニングを受けた人に対するインセンティブのようなものとして開催された催しでした。雨の中にも関わらず、50名近い参加者があったことは正直にすごいな、とわたしは思
wasai 2012/07/07
Cloudera

Hadoop

イベント
リンク
HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく - wyukawa's diary
Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.reco
wasai 2012/07/01
Hadoop

Cloudera
リンク
［1］簡単に分散処理を行えるPig
OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。（NTTコムウェア　研究開発部　川前徳章）クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed
wasai 2012/06/19
ITpro

Hadoop

Hive

Pig

ビッグデータ

分散処理
リンク
Hive Tools in NHN Japan #hadoopreading
1. Hive Tools in NHN Japan Hadoop Source Code Reading Vol.9 2012/05/30 @tagomoris (TAGOMORI Satoshi) 12年5月30日水曜日 3. Hive in NHN Japan Reporting of access log (not analysis) Pageviews and/or Unique Users? Accesses under speciﬁed condition? Hey, what numbers of accesses for our new features? new bot accesses? any troubles? 12年5月30日水曜日 4. SELECT yyyymmdd, count(is_pc(pa)) as pc, count(is_smartphone(p
wasai 2012/05/31
slideshare

NHN

Hadoop

Hive
リンク
IIJ、Ooyala（ウーヤラ）社と動画配信分野で提携 | プレスリリース | IIJ
wasai 2012/05/30
IIJ

セキュリティ

資料
リンク
MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
wasai 2012/05/30
Hadoop

MapReduce

アルゴリズム

機械学習

あとで読む
リンク
パブリッククラウドのHadoop対応状況を比較する──Amazon、Google、Herokuの場合
2012年はクラウドの「ビッグデータ」元年といわれており、米Amazon.com、米Google、米Heroku（米Salesforce.com）、米IBM、米Microsoftなどの大手PaaS（Platform as a Service）プレーヤーに注目が集まっている。では、パブリッククラウドでApache Hadoopのインプリメンテーションを最も包括的な形で提供しているのはどのベンダーだろうか。 Apache HadoopはHDFS、MapReduce、Hive、Pigなどのサブコンポーネントとともにビッグデータ分析の主流技術になりつつある。その背景には、エンタープライズデータウェアハウジングにPaaS型クラウドモデルを採用する企業が増えていることがある。Apache Software Foundationは、Hadoopが成熟し、業務用分析クラウド環境として活用できるようになった
wasai 2012/05/29
TechTarget

Hadoop

クラウド
リンク
Elastic MapReduceとHiveの概要と利用準備
必要な環境 Windows、Macなどインターネットが利用可能なOS環境クラウドでHadoopを使うメリット昨今ビッグデータ格納の基盤としてHadoopを使う事例が増えてきています。大規模なストレージを必要とせずにビッグデータを扱える環境は非常に魅力的です。 HadoopはGoogleの検索エンジンの基盤として開発されたGoogle File SystemおよびMapReduceの技術仕様を元に開発されたオープンソースソフトウェアです。ファイルを複数のサーバに冗長化した上で分散配置するHDFS（Hadoop Distributed File System）と、分散配置されている大量データから必要なデータの抽出や分解を行うHadoop MapReduceにより構成されています。現在、Hadoopはクレジットカード会社の売上データの解析や、国立国会図書館が提供している検索サービスのインデ
wasai 2012/05/19
CodeZine

Hadoop

MapReduce

Hive
リンク
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
1. Zabbixによる Hadoop/HBaseの監視 Hadoop/HBaseの運用におけるZabbixの活用事例日本ヒューレット・パッカード株式会社テクノロジーコンサルティング統括本部データセンターソリューション第一本部コアテクノロジー部石田精一郎 1 © Copyright 2012 Hewlett-Packard Development Company, L.P. 2011 2. 本日のお題 • お話ししたい内容 • Hadoop/HBase概要 • Hadoop/HBaseの監視と運用 • Hadoop監視プラグインの中身 • Hadoop監視を効率化するZabbixの機能 • まとめ • Appendix – インフラエンジニアなら監視しておきたいHadoopメトリクス – HP サービス紹介 2 © Copyright 2012 Hewlett-Packard D
wasai 2012/05/12
Zabbix勉強会で石田さんが発表された資料

slideshare

Hadoop

Zabbix

HBASE

勉強会

Zabbix_jp

監視
リンク
「tagomorisが騙るはじめてのHadoop」 - たごもりすメモ
深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。「初めてのHadoop」ちょっと考えてたが、例えば最初に考えるべきHDFSのblock sizeとかで、でもそれノード数とMR処理データ量の最大/平均サイズと、データ投入時の圧縮、そういうことをちゃんと考えないと決まらないんだよね、そういうことを書いてる本がないよね、みたいな 2012-05-08 01:13:11 via TweetDeck 設計 HDFS総容量と処理対象のデータ量についてファイルの形式について (TextFile/SequenceFile/RCFile) データの圧縮についてノードあたりのHDD台数、ディスクの選択 CPUおよびメモリの選択ノード数 H
wasai 2012/05/08
こういう本は欲しいかも

Hadoop
リンク
大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料 - hamadakoichi blog
2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年ではないでしょうか。 Mahoutは大規模分散データマイニング・機械学習のライブラリです。ApacheプロジェクトのOpen Sourceで、Hadoop上で動作しデータマイニング・機械学習の大規模分散実行を行うことができます。 Apache Mahout 大規模分散データマイニング・機械学習を実行できる Mahout ですが、まだ「ドキュメント整備が発展途上で詳細を知るためにはソースコードから読み解く」必要がある場合が多く、また、活用には「対象とするデータマイニング・機械学習の基礎知識」が必要なため、まだまだ活用の敷居が高いのが現状ではない
wasai 2012/05/05
データマイニング

機械学習

Hadoop

mahout
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ