[B! hadoop] ang65のブックマーク

2015年のHadoopとビッグデータ活用 | gihyo.jp

あけましておめでとうございます。濱野賢一朗です。 1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし、いざ1年を振り返ってみると、いろんなことが起きていたのだと実感したりもします。ここでは「ビッグデータ（Big Data）活用」が2015年にどう変化していきそうか、Hadoopの話題を中心に紹介したいと思います。 2014年を振り返るまずは、昨年を振り返ってみましょう。急浮上したバズワードという印象の「ビッグデータ活用」も、すこし落ち着いてきました。まだまだ浮ついた話を耳にしましたが、一方で、具体的な事例や技術の話も増えてきた1年でした。システム基盤の観点では「Hadoop」の変貌が始まりました。皆さんご存じのとおり、Hadoopは並列分散処理を実現するオープンソースソフトウェアです。技術的側面での変貌は2015年に本格化すると思いますが、その下準備が着実に行

ang65 2015/01/02

hadoop
Spark

リンク

第7回　halookを支える技術「ENdoSnipe」：halookで始めるHadoop/HBaseトラブルシューティング｜gihyo.jp … 技術評論社

このように開発から運用まで幅広い開発工程で利用することを想定しています。 halookはこのENdoSnipeのプラグインとして開発しており、Javelinを拡張してHadoopの情報を取得できるようにしたり、DashboardにHadoop用のビューを追加することで、Hadoopを解析できるようにしています。同様の手法で、他のOSSなアプリケーションやミドルウェアを解析するためのツールも構築することができるでしょう。 Javelin : ENdoSnipeのコア機能では、どのようにしてENdoSnipeはJavaの内部情報を取得しているのでしょうか。Java内部の情報を取得する方法としては、たとえばスレッドダンプやヒープダンプがあります。これらを取得すれば、Java内部で動いている全てのスレッドの情報やヒープメモリの状況は分かりますが、情報として十分ではありません。たとえば引数や戻り値

ang65 2013/05/27

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

ang65 2011/04/11

リンク

Hadoop - 三上俊輔の研究日記　分割可能なLZO圧縮をhadoopで使う

Twitterでは基本的にファイルはLZO圧縮しているようで， 3,4倍のストレージの節約分割可能 CPUは少ししか使わない IOバウンドのジョブは3,4倍の性能向上などのメリットがあると言っています．これは使わない手はないということで試してみました． clouderaのこのブログ記事を参考にして進めます． code.google.com/p/hadoop-gpl-compressionもありますが，Twitterが公開している分割可能なのを使います． http://github.com/kevinweil/hadoop-lzo 今回の環境はclouderaのamiをベースにしました． cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4 CDH3で，hadopoのバージョンは

ang65 2010/12/20

hadoop
lzo

リンク

Hadoop擬似分散環境メモ(Hishidama's Hadoop pseudo-distributed Memo)

S-JIS[2010-03-27/2010-04-04] 変更履歴 Hadoop 擬似分散環境 Hadoopの擬似分散モードをWindowsで試す方法について。擬似分散環境は、分散環境の各サービス（デーモン）を1台のマシン上で動かすモード。したがって、各サービスの動作方法は本来の分散モードと全く同じになる。

ang65 2010/09/12

リンク

Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

ang65 2010/05/23

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

ang65 2010/01/29

リンク

Orange: HadoopでMapReduceを書く

職場でI君からHadoopで(StreamではなくJavaを使って)MapReduceを書くのに適したチュートリアルが欲しいという話があったので、久しぶりにブログを書いてみることにした。まぁ、Streamを利用すればもっと簡単に書けると思うのでJavaを利用する意味もあまりないと思う。基本的にはプログラム自体にコメントをしつこいぐらいに書いたので、そちらを参照してもらいたいのだけれどもこのプログラムの目的を簡単に説明すると、cabochaという日本語構文解析プログラムの出力結果から単語の頻度を計算するものになっている。 cabochaの出力結果は下のようになっていて、 * 0 1D 0/1 0.00000000 ウィキペディアウィキペディアウィキペディア名詞-一般 O にニに助詞-格助詞-一般 O * 1 -1O 0/0 0.00000000 ようこそヨウコソようこそ

ang65 2010/01/18

リンク

Hadoop + Luceneで分散インデクシング - moratorium

Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

ang65 2010/01/18

リンク

Map/Reduce Tutorial

このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。通常、Map/Reduce のジョブは、入力データセットを独立

ang65 2010/01/18

リンク

国外萝li?交免费观看_国偷自产在线_国偷自产偷拍

温馨提醒：合理安排看片时间，享受健康生活！请收藏本站网址 yoshimov.com 以免下次找不到！

ang65 2010/01/18

Hadoop

リンク

Hadoopの最新動向を「Hadoop World:NY 2009」の資料から（前編）

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェアです。開発が始まったのは2005年頃で、当時Yahoo!に所属し現在はClouderaに所属するDoug Cutting氏が中心となって進めてきました。 Hadoopが実現するMapReduce処理とは、簡単にいえば大量のデータを小さく分割して多数のノードに割り当て（Map処理）、各ノードで処理を行ったらそれを集約して結果を出す（Reduce処理）、という分散処理の方法です。数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分散処理する方法として注目を集めています。ニューヨークでHadoop Worldが開催されるそのHadoopのカンファレンス「Hadoop World：NY 2009」が10月2日にニューヨークで

ang65 2009/11/07

リンク

RubyでHadoopをラップ、分散処理ツールキットが登場－＠IT

2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」（MRToolkit）をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも

ang65 2009/05/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (21)

hadoopに関するang65のブックマーク (13)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス