[B! Hadoop] yyamanoのブックマーク

2014年のApache Hadoopコミュニティの活動状況

yyamano 2015/04/07

Hadoop

リンク

PinterestのHadoopインフラ - ワザノバ | wazanova

http://engineering.pinterest.com/post/92742371919/powering-big-data-at-pinterest 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Pinterestもものすごい規模になってきましたね。 1日当たり20TBの新しいデータ。Amazon S3には約10PBが保存されている。同社ではこのデータの処理にHadoopを利用していますが、毎日100人以上が、Quoboleが提供するダッシュボードを使って、2,000件以上のジョブを実行。 3,000個のノードで構成される6つのHadoopクラスタを利用。エンジニアは数分で専用のクラスタが立上げ可能。毎日のログデータは、200億件。約1TBに達する。このグラフによると、Pinte

yyamano 2014/07/31

Hadoop

リンク

Hadoop Security Design Paper

Speaking about the buzz around Dataguise’s field-level encryption for Apache Hadoop and their 10 best practices for securing sensitive data in Hadoop, after the break1, you can find the “Hadoop Security Design” paper written by a team at Yahoo. In case you are wondering why some of the post have the “Continue” link, the reason is that they are using embeds and having these on the main page would m

yyamano 2013/04/16

リンク

Large Scale Log Analysis with HBase and Solr at Amadeus (Martin Alig, ETH Zurich)

This talk was held at the second meeting of the Swiss Big Data User Group on July 16 at ETH Zürich. http://www.bigdata-usergroup.ch/it em/296477

yyamano 2013/02/14

リンク

スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w

Cloudera HBase トレーニング: http://tiny.cloudera.com/jptraininghbase Hadoop Conference Japan 2013 Winter で発表した、HBaseのスキーマ設計に関する資料です。 Cloudera の HBase サポート、Cloudera Enterprise RTD http://tiny.cloudera.com/jpcertdRead less

yyamano 2013/02/01

Hadoop

リンク

Hadoop Conference Japan 2013で話したことと思ったこと - 急がば回れ、選ぶなら近道

Hadoop Conference Japan 2013 http://hcj2013w.eventbrite.com/ 先週終了。かなりの盛況で終わった感じです。まずは開催をサポートして頂き、相当の負担まで頂いたリクルート・テクノロジー様に感謝申し上げます。どうもありがとうございました。さて、えっと、前回がそもそもいつだったのか、良く覚えてないわけで。2011 Fallだったような。 http://hadoop-conference-japan-2011-fall.eventbrite.com/ 2011年の9月なので、1年4ヶ月ぶりという感じですね。Track数が増えて2から3で、会場もベルサールからビッグサイトになっていました。人数も1000人超になっております。以下、感想文です。記録としておいておく感じで。・内容で印象に残ったもの・HBase~LINEのバックボーンで使って

yyamano 2013/01/28

Hadoop

リンク

Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu

yyamano 2013/01/22

Hadoop

リンク

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

yyamano 2012/11/12

Hadoop

リンク

Cloudera Blog

Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transf orming the way we interact with techno logy. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post

yyamano 2012/10/15

YARN stands for “Yet-Another-Resource-Negotiator”. It is a new framework that facilitates writing arbitrary distributed processing frameworks and applications.

Hadoop

リンク

MapReduceは今後どうなるのか？ - 急がば回れ、選ぶなら近道

2012年の現在、割と悩んでいるのでメモっておく。年度末ぐらいに再調査の予定。・・なので暫定ですよ。まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

yyamano 2012/10/09

Hadoop

リンク

TechCrunch | Startup and Technology News

You probably rem ember that back in November, OpenAI’s board fired the company’s co-founder and CEO Sam Altman. What followed was this incredibly complicated power struggle…

yyamano 2012/10/01

Hadoop

リンク

7 Questions to Understand What Type of Hadoop Intergration BI Vendors Mean

yyamano 2012/09/26

While not my space, most often I hear about this integration it only means: “we can use Hadoop as an ETL tool”.

BI
Hadoop

リンク

Treasure Dataプラットフォームの管理画面を作る - mikedaの日記

前置きです。 IT界隈の人とHadoopの話をするとこういうギャップを感じます。 Hadoop使ってみたいところ >>> 実際に使っているところみんなどう使って、どう収益に結びつけるか設計、サーバ購入、構築、運用などなどの技術的コストとか考え始めて止まっちゃいます。たぶん考えるよりTreasureData使ってみたほうが早いです。そんなの使ってみないとよくわからんからです。 Hadoopガッツリ使ってました！なんて人そうそういないのです。というわけで問答無用で構築して（そのあたりは前記事）、簡単な管理画面を作ってサービスチームに公開しています。無料のトライアル版でもけっこう使えますし、気合入れればきっと数日で構築出来ます。以下はその管理画面についてです。ポイントはとにかく、『テキトウに作ってさっさと使ってみる』です。（ちゃんとしたものはそのうちだれかが作ってくれるでしょ

yyamano 2012/08/29

Hadoop

リンク

Treasure Dataの解析プラットフォームを使ってみた - mikedaの日記

ログの解析は日時でscpでかき集めてバッチ集計してるんだけどリアルタイムで集計したいもっと柔軟に集計したいという人は多いんじゃないでしょうか。リアルタイム収集はFluentdを使えばいけそうですが、集計部分を柔軟にというとどうだろう。 CookpadやAmebaはHiveを使ってるとの情報がある。『Hive on AWS @ COOKPAD』『Amebaのログ解析基盤』（どっちも古い。HiveはHadoop上でSQL（っぽく）ログ解析するためのプロダクトです）「面白そうだなー。でもHadoopよくわからん、というかサーバいっぱいいりそうだから承認通すのめんどくさい(´・ω・｀)」とか思ってたらSoftwareDesignの最新号にこんな記事が。 Cookpadの人「Treasure Dataは...ログ解析用の商用プラットフォームを提供しています。 Fluentd経由で

yyamano 2012/08/29

Hadoop

リンク

日々進化するHadoop。これまでのおさらいと最近の動向（後編）

Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。（本記事は「日々進化するHadoop。これまでのおさらいと最近の動向（前編）」の続きです） Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。対外的には

yyamano 2012/08/27

Hadoop

リンク

Re: Suggestion of Research topic in Hadoop for PhD research

yyamano 2012/07/30

This list is incomplete and biased towards work I was doing last year on data integrity within Hadoop -it omits all of Lamport's work on Distribute Computing,

Hadoop

リンク

Hadoopは統計の基礎を無視しているのか？ - 急がば回れ、選ぶなら近道

http://ascii.jp/elem/000/000/687/687170/ こういう塩梅になった。これでも一応、最初に上がってきたインタビュー記事を訂正して、この状態という感じです。最初のほうはもっと派手だった。まー、さすがに読み手で不快に感じる人もいるだろうし、とはいえ、話したことをつないでいる部分は確かにあるわけで、はてどうしたものかな・・・と思っているうちにリリースになったというのが実態ですね。えっと、まず読んで不快に思った方は確実にいらっしゃると思うので、その方たちにはお詫び申し上げます。すんませんでした。その上で真意を書いておくと・・・まず、Hadoopは統計の基礎を無視しているのか？という問題ですが、基本的にHadoopのBIで飯を食っている人は、いわゆる「データ・サイエンティスト」という職種の人たちにあたる方たちで、当然、統計のプロだ。当たり前の話だが、大抵のHa

yyamano 2012/05/10

リンク

Cloudera Blog

Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

yyamano 2012/04/03

Apache Sqoop is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.

Hadoop

リンク

GridGain vs Hadoop: GridGrain Is Web Scale

yyamano 2012/03/31

funny
Hadoop

リンク

Authorization and Authentication In Hadoop - Cloudera Blog

One of the more confusing topics in Hadoop is how authorization and authentication work in the system. The first and most important thing to recognize is the subtle, yet extremely important, differentiation between authorization and authentication, so let’s define these terms first: Authentication is the process of determining whether someone is who they claim to be. Authorization is the function

yyamano 2012/03/23

Hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

Hadoopに関するyyamanoのブックマーク (62)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス