[B! Hadoop] Jxckのブックマーク

分散システム処理モデルに関する動向について（MapReduceからBorgまで）

詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化（限定）されたモデルであったと言えます。また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま

Jxck 2015/06/11

リンク

ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について

ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について The sad state of sysadmin in the age of containers コンテナー時代のシステム管理者の惨状システム管理は惨劇に見舞われている。現状は悲惨だ。筆者は昔気質のシステム管理者に不満はない。システムの稼働を維持し、アップデートし、アップグレードする方法を知っている者達だ。この憤りは、コンテナーと構築済みVMと、それらがもたらす、「信頼」や「アップグレード」の欠如による悲惨な惨劇に対するものだ。例えば、Hadoopを見てみろ。誰もHadoopをスクラッチからビルドする方法を知っているようには見えないぞ。依存性とバージョンとビルドツールが悲惨なほどに絡まりあっている。この手のイケてるツールの中で、古典的なmake

Jxck 2015/04/30

hadoop

リンク

第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、

Jxck 2015/04/01

hadoop

リンク

Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場

こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張

Jxck 2013/09/02

リンク

基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）

基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド（以下、AWS：Amazon Web Services）の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。止まってはいけない基幹システムをクラウドへノーチラス・テクノロジーズ代表取締役社長神林飛志氏（写真中央）。西鉄ストア様の本部基幹システムをクラウドへ移行する

Jxck 2013/06/03

AWS とは Hadoop もそうだけど、基幹業務の刷新系でのプロジェクトとして色々すさまじいし、なんかもうホンとすげーなと思う。

aws
hadoop

リンク

Hadoopの派生関係

Hadoop in Practiceを読んでからお絵かき上手になりたいと思い、テーマとしてよさげだったので、ベンダー勢も含めて派生関係をお絵かきしてみました。というのと、Hadoopまわりの派生関係はあきらかにややこしく、一度真面目に調べてみたかったのもあります。前者の目的についてはそれなりにシャレオツ感があるのでよしとして、派生関係の把握についてですが、これはあきらめてだいぶいろいろ簡略化しています。　http://svn.apache.org/viewvc/hadoop/common/ この辺から既存のブランチとタグを追いかけるとわかるのですが、どのバージョンからどのバージョンが派生しているのか調べるのはわりと大変そうだったので、Hadoop Opertions とClouderaのブログ http://www.cloudera.co.jp/hadoop/column/apache

Jxck 2013/01/08

リンク

Cloudera Impala発表資料 | 外道父の匠

11/26 の『Hadoopソースコードリーディング第13回』でCloudera Impalaの発表をしてきました。きっかけはTwitter上で、ビールの化身も◯すの外道父を呼べば？から始まって、１分かからず依頼ツィートが飛んできて引き受けた感じで、Twitterで数分で全てが完結する非常にフットワークの軽い業界になります。それでは、発表資料や補足などを書いていきます。リンク Eventbrite : Hadoopソースコードリーディング第13回 Twitter #hadoopreading togetter : Hadoopソースコードリーディング第13回まとめ Inside Impala Coordinator at HSCR 13th – Go ahead! by @repeatedly Inside Impala -Query Exec Engine- by @o

Jxck 2012/11/29

リンク

Cloudera impala

Jxck 2012/11/29

リンク

データ解析基盤を構築する前に考慮すべきポイント - still deeper

概要ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。ところで、データ（構造や収めているDBなども含めて）というのは寿命の長いもので、初期の設計を間違えてしまうと、その時点で戦略的な敗北は決まってしまいます。その後は運用しながら変更可能なところでゲリラ的に対応していくしか手を打てません。そのため、実際に構築を行う前に、求められている解析がどのようなものかを十分に吟味した上で、適切なハードウェア、ミドルウェア、データ構造を選択し基盤を構築していくことが大変重要です。着目すべき点では解析のどのような点に着目すればよいかというと、私は次の5点を考えて

Jxck 2012/11/14

hadoop

リンク

MapReduceは今後どうなるのか？ - 急がば回れ、選ぶなら近道

2012年の現在、割と悩んでいるのでメモっておく。年度末ぐらいに再調査の予定。・・なので暫定ですよ。まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

Jxck 2012/10/09

今が一番大事な時期って感じなのかな。

リンク

ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを

When Alex Ewing was a kid growing up in Purcell, Oklahoma, he knew how close he was to home based on which billboards he could see out the car window.…

Jxck 2012/08/20

リンク

Distributed Control Break - 急がば回れ、選ぶなら近道

まず始めに断っておきますが、このワードの発案は@marblejenkaさんによるものです。個人的には、言い得て妙だと思っています。この手の言葉の使い方のセンスはマーブル先生は時々天才な時があり、このワーディングもそれに属します。尚、社内では「この言い方は若干、一種の中二病的な側面もある」という意見のため、公式のドキュメントから削除されています。残念です。よってブログに残す。まずもってControl Breakですが、COBOLの必殺技のひとつで最上位古代魔法(ハイ・エンシェント・ロア)のひとつに属します。JavaとかJavaとかJavaとか、な人たちにはちょっと意味がわからない感じになりますが、ある一定の処理の固まりを順におこなっている時に、なにかのタイミングで（大抵はキーの切り替え）で別の処理を一時的に行う（コントロールがブレイクする）ことを言います。まず単純な例では、例えば、明細が

Jxck 2012/06/25

リンク

MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

Jxck 2012/05/28

リンク

【クラウド特捜部】ビジネスに根付く分散処理基盤「Hadoop」、その利用実態を聞く

Jxck 2012/05/03

リンク

Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts　とすることとか（ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな）、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

Jxck 2011/11/13

リンク

Mapreduce2.0 - 急がば回れ、選ぶなら近道

次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

Jxck 2011/10/21

リンク

http://infra-engineer.com/hadoop/hadoop-conference-japan-2011-fall%E3%81%A7%E4%BD%BF%E7%94%A8%E3%81%95%E3%82%8C%E3%81%9F%E8%B3%87%E6%96%99%E3%82%84%E3%81%A4%E3%81%B6%E3%82%84%E3%81%8D-hcj11f/

Jxck 2011/09/27

リンク

Hadoopの現在 - 急がば回れ、選ぶなら近道

もともとHadoopは注目の仕組みであったけどここに来てさらに大きな流れになろうとしてる。各種のイベントや記事にしても大型のものが多く一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 ＆ Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ

Jxck 2011/09/18

リンク

次世代Hadoopの特徴は、MapReduce 2とGiraph - ＠IT

次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来有限会社オングス後藤大地 2011/9/15 ■ 増え続けるHadoop活用企業大規模データの分析に、Javaのフレームワーク「Apache Hadoop」（以下、Hadoop）を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル

Jxck 2011/09/16

いろいろ改善するんだなぁ。NameNodeの冗長化とかktkrレベルじゃない？

リンク

次世代アーキテクチャ - 急がば回れ、選ぶなら近道

次世代アーキテクチャについての考えをまとめておく。まずは、Hbaseの勉強会のお話。某界隈では割と話題になったので、細かいブログやサイトは結構、紹介されている。ので特に詳細は省く。一応tatsuyaさんのSlideshareは Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HB… slideを見ているだけでは、よくわからないと思うが Jonathanとの会話では、FBはバックエンドの部分を含めてバッチ処理は別のHadoopクラスターで行っている。相当バリバリ使っているようだ。したがって、割と話題になっているHbase上でHadoopMRはどうよ？っていう話は「分ける」ってのが正解に近く、フロント処理とバック処理は明快にわけることが基本になるようだ。その上での印象で、自分の思ったこ

Jxck 2011/09/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (24)

Hadoopに関するJxckのブックマーク (31)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス