[B! hadoop] mhagのブックマーク

http://infra-engineer.com/hadoop/hadoop-conference-japan-2011-fall%E3%81%A7%E4%BD%BF%E7%94%A8%E3%81%95%E3%82%8C%E3%81%9F%E8%B3%87%E6%96%99%E3%82%84%E3%81%A4%E3%81%B6%E3%82%84%E3%81%8D-hcj11f/

mhag 2011/09/28

hadoop

リンク

TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング（Doug Cutting）さんが「Cloud Computing World Tokyo 2011」＆「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。満員の客席。皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

mhag 2011/09/02

hadoop

リンク

実践！「MapReduceでテキストマイニング」徹底解説

「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

mhag 2011/07/21

リンク

Twitterにおける大規模システム構築、3つの原則

4月に米サンタクララで行われたMySQL Confernce & Expo 211では、TwitterのJeremy Cole氏が「Big and Small Data at @Twitter」と題して、同社のシステムにおける原則とシステム構成について紹介したプレゼンテーションが行われました。 1日に1億5000万以上のツイートが行われているTwitterのシステムはどのように構築されているのか、その内容を紹介しましょう。 Twitterにおける原則 TwitterのJeremy Cole氏。

mhag 2011/05/24

リンク

分散データベース「HBase」の安定運用を目指して - Preferred Networks Research & Development

1年経ってiPhone4の電池がヘタってきた、太田です。指数関数的にエントリ数が少なくなってきた本ブログですがw、景気付けのためにエントリを投稿したいと思います！本日はHBaseについてです。 Linux と Hadoop と HBase と ZooKeeper に詳しいあなた！あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。ま

mhag 2011/05/09

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

mhag 2011/04/11

hadoop

リンク

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

mhag 2011/02/25

リンク

Hadoopの可用性について（私訳） - developer’s delight

この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てませんのでよろしくお願いします。間違いなどがありましたらご指摘いただければ助かります。(id:kkawamura)Apache Hadoopのメーリングリストでよくある質問は、可用性を保つためにどうするか？というものです。この記事では、Hadoopのコンテキストでの可用性について見ていき、進行中の開発の方向性を示します。背景Hadoopの可用性を議論するとき、人はよくNameNodeがHDFSにおいて単一故障点であるため、NameNodeから話をはじめます。そしてHadoo

mhag 2011/02/15

hadoop

リンク

「Application Performance2010」でご紹介したHadoop講演資料を公開します

11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。当日はたくさんの方におこしいただき、ありがとうございます。ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop　～Yahoo! JAPANの活用について～ヤフー株式会社 R&D統括本部角田直行、吉田一星

mhag 2010/11/30

hadoop

リンク

Amazon Elastic MapReduceを使ってみた - moratorium

Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

mhag 2009/04/03

リンク

アマゾン、ウィザードだけで使えるHadoopサービス開始－＠IT

2009/04/02 米アマゾンの子会社、Amazon Web Services（AWS）は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ

mhag 2009/04/02

リンク

Hadoop＋Hive検証環境を構築してみる

Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

mhag 2009/03/07

hadoop
hive

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

mhag 2009/01/23

hadoop

リンク

楽天版MapReduce・HadoopはRubyを活用－＠IT

2008/12/01 楽天は11月29日、東京・品川の本社で開催した技術系イベント「楽天テクノロジーカンファレンス2008」において、近い将来に同社のEコマースサービス「楽天市場」を支える計画があるRubyベースの大規模分散処理技術「ROMA」（ローマ）と「fairy」（フェアリー）について、その概要を明らかにした。レコメンデーションの処理自体はシンプル楽天市場では現在、2600万点の商品を取り扱い、4200万人の会員に対してサービスを提供している。この規模の会員数・商品点数でレコメンデーション（商品の推薦）を行うのは容易ではない。 ※記事初出時に楽天市場の会員数を4800万人としてありましたが、これは楽天グループのサービス利用者全体の数字でした。楽天市場の会員数は正しくは4200万人とのことです。お詫びして訂正いたします。レコメンデーションの仕組みとして同社は、一般的でシンプルなア

mhag 2008/12/02

リンク

本を読む GREE LabsでHadoopの話を聞いてきた

GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて（太田一樹） Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい

mhag 2008/11/27

hadoop

リンク

Hadoopの解析資料

オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする

mhag 2008/09/24

hadoop

リンク

AmazonEC2 - HADOOP2 - Apache Software Foundation

Running Hadoop on Amazon EC2 Amazon EC2 (Elastic Compute Cloud) is a computing service. One allocates a set of hosts, and runs one's application on them, then, when done, de-allocates the hosts. Billing is hourly per host. Thus EC2 permits one to deploy Hadoop on a cluster without having to own and operate that cluster, but rather renting it on an hourly basis. If you run Hadoop on EC2 you might c

mhag 2008/08/06

hadoop
ec2

リンク

AmazonS3 - HADOOP2 - Apache Software Foundation

S3 Support in Apache Hadoop Apache Hadoop ships with a connector to S3 called "S3A", with the url prefix "s3a:"; its previous connectors "s3", and "s3n" are deprecated and/or deleted from recent Hadoop versions. Consult the Latest Hadoop documentation for the specifics on using any the S3A connector. For Hadoop 2.x releases, the latest troubleshooting documentation. For Hadoop 3.x releases, the la

mhag 2008/08/06

hadoop
s3

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

hadoopに関するmhagのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス