[B! Hadoop] ji_kuのブックマーク

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講演資料）

■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料（2015/02/28）『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス吉田　耕陽Read less

ji_ku 2015/03/23

hadoop

リンク

Amazon.co.jp: Hadoopファーストガイド: 佐々木達也: 本

ji_ku 2012/09/22

hadoop

リンク

Registration: Machine learning & data conference | O'Reilly Strata

We’ve made the very difficult decision to cancel all future O’Reilly in-person conferences. Instead, we’ll continue to invest in and grow O’Reilly online learning, supporting the 5,000 companies and 2.5 million people who count on our experts to help them stay ahead in all facets of business and techno logy. Come join them and learn what they already know. Become an O’Reilly online learning member

ji_ku 2012/03/04

Hadoop

リンク

Mapreduce2.0 - 急がば回れ、選ぶなら近道

次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

ji_ku 2011/10/24

Hadoop

リンク

Hadoopの異端さが面白い - wyukawa's diary

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（

ji_ku 2011/09/09

Hadoop

リンク

アップグレードと異なるプログラミングパラダイムのためのHadoop再設計

Rustが再評価される：エコシステムの現状と落とし穴 In this article, we share findings and insights about the Rust community and ecosystem and elaborate on the peculiarities and pitfalls of starting new projects with Rust or migrating to Rust from othe...

ji_ku 2011/09/09

Hadoop

リンク

HbaseとHadoopMR - 急がば回れ、選ぶなら近道

Hbase勉強会のまとめの延長として今後の考え方をまとめておきます。まずは前提として <一般論> Hbaseにかぎらず、NoSQL系一般に言えることではあるが Usecaseを意識して利用する事が必要だ、ということだと思う。最近の傾向としては、Googleでも顕著だけど、一定の用途をターゲットにして特定のミドルを開発するという方法が結構多い。 Hbaseもその流れはあるので、そのあたりは意識する必要はあるかもしれない。 Hbaseついては、注目するとすればFacebookになるかな。 http://www.cloudera.com/resource/hw10_hbase_in_production_at_facebook いずれにしても、割とうまくいっているUsecaseの情報の有用性は他の技術よりも高いと思う。基本的に単純に分散KVSを使いたいならHbaseにこだわる必要

ji_ku 2011/06/20

Hadoop

リンク

Map Reduce 〜入門編：仕組みの理解とアルゴリズムデザイン〜

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）NTT DATA OSS Professional Services

ji_ku 2011/06/20

Hadoop

リンク

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

ji_ku 2011/06/15

Hadoop

リンク

NTTデータのHadoop報告書を読んでみた - wyukawa's diary

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、１か月ほど前からHadoop仕事を始めたこともあり読んでみました。ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら２章です。もうちょっと突っ込むなら関連する８章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが２章は割とページをいったりきたりしたので。２章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象本にもHadoo

ji_ku 2011/06/13

Hadoop

リンク

MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道

MapReduceというと集計に使うモノという人が多いと思う。なんとなれば、MapReduce＝Hadoop＝ワードカウントの図式になっているからだ。実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「本当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()

ji_ku 2011/06/13

Hadoop

リンク

TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇（大学教授が長期の休みを取れる制度）でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitter エンジニアの@squarecogさんと

ji_ku 2011/06/13

Hadoop

リンク

リアルタイムなHadoop？「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開－ Publickey

米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。リアルタイムなMapReduceで何ができる？リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか？ S4の公開を表明したY

ji_ku 2011/04/02

hadoop

リンク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

ji_ku 2011/02/21

hadoop

リンク

次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

ji_ku 2011/02/17

hadoop

リンク

Hadoopの可用性について（私訳） - developer’s delight

この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てませんのでよろしくお願いします。間違いなどがありましたらご指摘いただければ助かります。(id:kkawamura)Apache Hadoopのメーリングリストでよくある質問は、可用性を保つためにどうするか？というものです。この記事では、Hadoopのコンテキストでの可用性について見ていき、進行中の開発の方向性を示します。背景Hadoopの可用性を議論するとき、人はよくNameNodeがHDFSにおいて単一故障点であるため、NameNodeから話をはじめます。そしてHadoo

ji_ku 2011/02/14

hadoop

リンク

平成２１年度産学連携ソフトウェア工学実践事業（高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業））事業成果報告書

ji_ku 2010/09/29

Hadoop

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

ji_ku 2010/01/27

hadoop

リンク

Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

ji_ku 2009/12/21

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

Hadoopに関するji_kuのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス