[B! Hadoop] blueleのブックマーク

How do I copy files from S3 to Amazon EMR HDFS?

bluele 2014/09/06

hadoop
s3

リンク

Simplest way to install and configure Hive for Mac OSX Lion :

bluele 2014/08/07

参考になる

hadoop
hive

リンク

ハッシュタグのリアルタイム分析のためのラムダ・アーキテクチャー

この記事で私たちは、Trident、Hadoop、Splout SQLを連携させて、簡単な「ラムダ・アーキテクチャー」の例をどのように構築したかを示すつもりです。私たちはStormの上位における高レベルAPIであるTrident、Hadoopに対する高速リードオンリーSQLであるSplout SQLについて学んでいきます。この事例のアーキテクチャーは、このgithub プロジェクトでホストされています。私たちはツイートにおけるハッシュタグの出現数を、日付によってカウントする作業をシミュレートします。完全なゴールは、この単純な問題を完全にスケーラブルな方法で解き、問い合わせに対するリモートの低レイテンシー・サービスを提供することにより、ハッシュタグのカウントに進化をもたらすことです。この中には、二つのシステムの連結とそれに対するリアルタイム集計が含まれます。そこで、すべてのハッシュタグに対

bluele 2014/05/26

hadoop
storm

リンク

TechCrunch | Startup and Technology News

Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions. Starliner…

bluele 2013/06/28

aws
hadoop

リンク

Treasure Data, Inc. | Finding Gems in Your Big Data

The AI-powered CDP for the world’s largest companies. Recognized as a Leader by Gartner. Gartner® names Treasure Data a Leader in the 2024 Magic Quadrant™ for Customer Data Platforms. Get Magic QuadrantGet Critical Capabilities Treasure Data empowers the world’s largest and most innovative companies to drive connected customer experiences that increase revenue and reduce costs. Built on a big data

bluele 2013/01/09

hadoop

リンク

Amazon Elastic MapReduceに今さら入門してみた - nokunoの日記

というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce（EMR）を使ってみました。今なら公式ページもほぼ日本語化していて楽チンです。Amazon Web Services (日本語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります（EMRが出来る以前はそれしかなかった）。 EMRを使う場合でも、バックグラウンドでは自動的に

bluele 2012/10/16

hadoop

リンク

Twitterのリアルタイム分散処理システム「Storm」入門

鈴木貴典＋木村宗太郎 TwitterのNathan Marz氏が開発している「Storm」。 2011年9月に、オープンソースとして公開されましたが、まだまだ日本で得られる情報は少なく、詳細は不明なところも多いです。そこで、日本初（たぶん）の「Storm」セッションを行います。「Storm」は、CEP（Complex Event Processing＝複合イベント処理）に属するプロダクトであり、分散リアルタイム処理を行うための基本セットを提供しています。今回のセッションでは、その概念や特性などについて解説してみます。Read less

bluele 2012/09/21

リンク

Wikipediaデータ解析ツールWik-IE

Wik-IEはWikipediaで公開されているデータファイルを解析するJavaで書かれたツールです。記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなどの情報を抽出します。バージョン2.0から実行できる機能や、実行方法が変わりました。また分散処理版とスタンドアロン版の区別をなくしました。1つのjarファイルでどちらの用途にも利用できます。 Wik-IEとは要件機能使い方ライセンス Wik-IEとは Wikipediaではその全データが誰でもダウンロード可能な形で公開されています。そのデータファイルを解析し、記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなど、様々な情報を抽出するツールがWik-IEです。 Wik-IEはApache Hadoopプラットフォーム上での動作し、分散処理により高速で処理ができます。スタンドアロンでの動作も可能です。要件 Wi

bluele 2012/07/14

リンク

Quick Wikipedia Mining using Elastic Map Reduce

This document summarizes Amazon's Elastic MapReduce service. Elastic MapReduce allows users to run Hadoop/MapReduce jobs on Amazon Web Services infrastructure. It launches Hadoop clusters across Amazon EC2 instances and stores data in Amazon S3. The document provides step-by-step examples of using Elastic MapReduce to analyze Japanese Wikipedia data stored in S3, including counting article links,

bluele 2012/04/24

リンク

Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

bluele 2012/04/24

hadoop
nlp

リンク

Hadoopでレコメンドシステムを作ろう記事一覧 | gihyo.jp

bluele 2012/03/19

hadoop

リンク

【17-E-3】オンライン機械学習で実現する大規模データ処理

1. ⼤大⻄西 ( ) Preferred Infrastructure <nishikawa@preferred.jp>

bluele 2012/02/24

リンク

Hadoopで始める並列データ解析／前編 | Inhale n' Exhale

1月13日（金）にPalo Altoで行われたJTPAのギークサロンに参加してきた。今回は参加者がラップトップ持ち込みでコーディングしていくハッカソン形式で、会場入りする前までにHadoopが使える環境を自前で用意しておく必要があった。もうそれだけで、いつものギークサロンよりハードルが高いのだが、当日は15人ほどのギークたち（中には3日前にベイエリアに来たばかりという学生もいた）が集まって、おのおのラップトップとにらめっこしながらHadoopと戯れていた。今回のギークサロンをホストしてくださった山中仁氏が、EC2上にHadoopクラスタを構築する方法を、参加者向けの資料としてWeb上に準備してくださり、「Hadoop＝未知の領域」だった自分でもすんなりHadoopクラスタを組むことができた。だが残念なことに、この資料自体がEC2上に一時的に立てたサーバーに置かれており情報が恒久的には残ら

bluele 2012/02/10

ec2
hadoop

リンク

MacでHadoopスタンドアローンモード - kj-ki’s blog

HadoopのMapperやReducerを自分で書こうとすると，ローカルマシン上でHadoopを動かしたくなります． Macなら最初からJVMも入ってるし，ソースを持ってくればそのままで動くか，と思ったらそうでもなかった．何はともあれダウンロード Mac用のパッケージはなさそう(?)なので，TarBallをそのままダウンロードします．今回はclouderaからゲット．(hadoop-0.20.2+737.tar.gzとかがそうです) JavaVM設定が必要で，解凍した後にバージョン表示させようとしたら，さっそくコケました... $ bin/hadoop -version Exception in thread "main" java.lang.UnsupportedClassVersionError: Bad version number in .class file at jav

bluele 2012/02/10

Hadoop
Java

リンク

はやわかりHadoop

HDFS新機能総まとめin 2015 （日本Hadoopユーザー会ライトニングトーク＠Cloudera World Tokyo 2015　講演資料）

bluele 2012/02/08

hadoop
slide

リンク

Welcome to Apache Hadoop!

Apache Hadoop プロジェクトでは、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースソフトウェアを開発しています。Hadoop には以下のサブプロジェクトがあります。 Hadoop Common: Hadoop のほかのサブプロジェクトをサポートする共通のユーティリティです。 Avro: 各種スクリプト言語に動的に組み込み可能なデータ直列化システムです。 Chukwa: 大規模分散システムを管理するためのデータ収集システムです。 HBase: 巨大テーブル用の構造化データストレージをサポートするスケーラブルな分散データベースです。 HDFS: アプリケーションデータに対して高いスループットでのアクセスを可能にする分散ファイルシステムです。 Hive: データ・サマライゼーションやアドホックなクエリー操作を可能にするデータウェアハウス・インフラストラクチャです

bluele 2012/02/08

hadoop

リンク

Python：Hadoop：MapReduceサンプル - HiiHahWIKI - making some notes for... -

Python：Hadoop：MapReduce?サンプル † HadoopのMapReduce?のプログラムをHadoopStreaming?を使ってPythonで書いてみました。 ※CDH環境で実行してますので、実行時のパス等は適当に読み替えてください。 Reducerの処理は一工夫必要だけど、簡単に書けます。ログの集計とか、Hadoop使ってやるとほんと簡単に実行できるなーと実感した限りです。 ↑ 処理対象データの一部 † こんな感じのデータが入力で、時刻（分）単位のレスポンスタイムの平均を求めたいです。 ■test.txt #refpre(test.txt,,1); 第一カラム時刻（ミリ秒まで出力されている）第四カラムレスポンスタイム（ミリ秒） ↑ ソース † こんな感じです。 ■map.py #refpre(map.py,,1); ほんとは、入力値チェックをして、エラーレコ

bluele 2012/02/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

Hadoopに関するblueleのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス