[B! hadoop] sabroのブックマーク

日々進化するHadoopの「いま」

第2回 NHNテクノロジーカンファレンス講演資料（2012年8月18日）日々進化するHadoopの「いま」株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービスシニアエキスパート濱野賢一朗（日本Hadoopユーザー会） NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

sabro 2012/08/20

hadoop

リンク

ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを

When Alex Ewing was a kid growing up in Purcell, Oklahoma, he knew how close he was to home based on which billboards he could see out the car window.…

sabro 2012/08/19

リンク

mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，

sabro 2012/08/10

リンク

Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

Hadoopの現実解「バッチ処理」の常識をAsakusaで体得：ビッグデータ処理の常識をJavaで身につける（7）（1/4 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。本稿では、並列分散で「バッチ処理」を行う方法につい

sabro 2012/06/01

リンク

MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

sabro 2012/05/28

リンク

Twitterのリアルタイム分散処理システム「Storm」入門

鈴木貴典＋木村宗太郎 TwitterのNathan Marz氏が開発している「Storm」。 2011年9月に、オープンソースとして公開されましたが、まだまだ日本で得られる情報は少なく、詳細は不明なところも多いです。そこで、日本初（たぶん）の「Storm」セッションを行います。「Storm」は、CEP（Complex Event Processing＝複合イベント処理）に属するプロダクトであり、分散リアルタイム処理を行うための基本セットを提供しています。今回のセッションでは、その概念や特性などについて解説してみます。Read less

sabro 2012/05/19

リンク

GitHub - nathanmarz/storm: Distributed and fault-tolerant realtime computation: stream processing, continuous computation, distributed RPC, and more

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

sabro 2012/05/19

リンク

“統計の基礎を無視している”Hadoop使いが考えるビッグデータ

Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長神林飛志氏に、その真意を聞いた。 Hadoop＝ビッグデータは大きな誤解ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」（神林氏）という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

sabro 2012/05/10

リンク

大規模データ技術の現状と今後の方向性

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

sabro 2012/03/28

リンク

PC

認定整備済みパソコンの研究富士通直販PCの「わけあり品」は電源が入っていないもの、アウトレットは新品 2024.02.09

sabro 2012/01/15

リンク

データマイニング・アルゴリズムのトレンド

HDDの大容量化と分散処理技術の発達でビッグデータの処理が容易になってきたので、ここ数年はデータマイニングが地味なブームになっている（NYT - For Today’s Graduate, Just One Word: Statistics）。2000年代前半のデータウェアハウスのブームではコンセプトだけが先走っていた（大園(2002)）ので、随分と地に足がついた感じだ。しかし人気のアルゴリズムを見ている限りは、まだ十分にデータ分析がされているように思えない。 1. 10年間でソフトウェア的に進歩地に足がついていると言うのは、ソフトウェア的に色々な面で進歩が見られたことだ。ビッグデータの利用が可能になった事から、応用事例が増えているように思える。 1. 分散処理技術の進歩によるビッグデータの利用ハードウェア技術の進歩による高速化も著しいが、分散処理技術の進歩はビッグデータの利用を容易に

sabro 2012/01/10

リンク

来年のHadoop - 急がば回れ、選ぶなら近道

Hadoopアドベント・カレンダーの多分最終日のはず。せっかくなんで、来年の予想でもしてみようかと。日本の話です。世界のことはよくわかりません。本当のことは、日本には伝わらない（表向きの話はともかく、現状ではVCあたりの外野の方が発言力があると思うし、向こうでも、その辺の正確な情報は伝播してる気がしません）と思うので。とはいえ、日本のHadoopマーケットは、それなりわかっている（というか、わかっていないとまずい）感じみたいなので・・・勝手に、来年のHadoopとか予想します。外れたら焼き肉おごります。 1 大量データ処理でのデファクト化・いわゆるWeb系ではつかっていないところは一社もなくなる特にレコメンデーションエンジンあたりは、もう普通に実装して使う。ただし、それ以上のものは出ない。集計処理と推論をうまく利用したレコメンデーションエンジン（とその亜流）、従来からのフィルタリン

sabro 2012/01/01

hadoop

リンク

第16回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理祭り− を開催しました - hamadakoichi blog

2011/11/27 "第16回データマイニング+WEB 勉強会＠東京−リアルタイム分散 Web解析・自然言語処理祭り−"を開催しました。第16回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイニング+WEB勉強会＠東京について」(15分) 講師： id:hamadakoic

sabro 2011/11/30

リンク

Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts　とすることとか（ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな）、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

sabro 2011/11/15

hadoop

リンク

大規模データ分析基盤技術「Jubatus」の公開 - 株式会社プリファードインフラストラクチャー

2011年10月26日報道関係者各位プレスリリース日本電信電話株式会社株式会社プリファードインフラストラクチャー ==================================================== ビッグデータのリアルタイム処理を可能にする大規模データ分析基盤技術を世界に先駆けて開発～10月27日よりオープンソースソフトウェアとして公開～==================================================== 日本電信電話株式会社（東京都千代田区、代表取締役社長：三浦　惺、以下「NTT」）と株式会社プリファードインフラストラクチャー（東京都文京区、代表取締役社長：西川徹、以下「PFI社」）は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分析処理する基盤技術「Jubatus*2」（第1版）を開発しま

sabro 2011/10/26

リンク

Mapreduce2.0 - 急がば回れ、選ぶなら近道

次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

sabro 2011/10/21

リンク

第14回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 14th)－大規模分散データマイニング祭り－を開催しました - hamadakoichi blog

2011/10/16 "第14回データマイニング+WEB 勉強会＠東京"を開催しました。第14回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining 14th)−大規模分散データマイニング祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイニング+WEB勉強会＠東京について」(10分) 講師： id:hamadakoichi [Twitter:@hamadakoichi] オープニングト

sabro 2011/10/20

リンク

agilecatcloud.com

This domain may be for sale!

sabro 2011/10/14

Dryadより、Hadoopを選んだってことなのか

リンク

http://www.osrg.net/accord/

Accord: A high-performance coordination service for write-intensive workloads Overview Accord is a high-performance coordination service like Apache ZooKeeper that uses Corosync Cluster Engine as a total-order messaging infrastructure. It features: Accord is a distributed, transactional, and fully-replicated (No SPoF) Key-Value Store with strong consistency. Accord can be scale-out up to tens of n