[B! hadoop] TaROのブックマーク

Hadoopでレコメンドシステムを作ろう記事一覧 | gihyo.jp

TaRO 2011/10/23

hadoop

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

TaRO 2011/06/21

リンク

Hadoopを用いた大規模ログ解析

In the first half, we give an introduction to modern serialization systems, Protocol Buffers, Apache Thrift and Apache Avro. Which one does meet your needs? In the second half, we show an example of data ingestion system architecture using Apache Avro.

TaRO 2011/04/11

リンク

第1回　分散処理を隠蔽し、大規模開発を可能に

筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス（

TaRO 2011/03/28

リンク

アップグレードと異なるプログラミングパラダイムのためのHadoop再設計

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

TaRO 2011/02/25

hadoop

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

TaRO 2011/02/24

hadoop
java

リンク

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1

TaRO 2011/02/22

hadoop
DeNA

リンク

Hadoopを試してみる – ぱんぴーまっしぐら

ubuntu 10.04 LTS via:Hadoop (CDH3) Quick Start Guide – Documentation – Cloudera Wiki sun-javaがリポジトリからなくなったので外部リポジトリを利用 sudo aptitude install python-software-properties sudo add-apt-repository 'deb http://archive.canonical.com/ lucid partner' sudo apt-get update sudo aptitude install sun-java6-jdk Cloudera版が楽そうなので利用する。 sudo add-apt-repository 'deb http://archive.cloudera.com/debian lucid-cdh3 contr

TaRO 2011/02/14

リンク

Hadoop が起動する Live-USBを作成する -- Master Node 分散環境　編 - Guutaraの日記

USBで、ブートするだけで、Hadoopの分散環境がテストできる Live-USBを作成してみます。今回は、マスターノードとなるUSBの基礎の部分に、Hadoop（CDH3）をインストールし分散環境の設定で、Live-USBを動かします。 Serverで、USBを使う場合ですが、接続後に、 dmesg | tail すればデバイス名（sdb1など）が、わかるのでマウントします。作成に使用する環境など Mac OSX 10.6 のMacBook上に、VMWare Fusionを入れて作業します。 Hadoop が起動する Live-USBを作成する -- Master Node 疑似分散編 - Guutaraの日記で、作成したVM環境で作業します。 Hadoopの設定構成ですが、スレーブを１０ノードまで登録しておきます。まずは、confを変更します。分散環境のconfは、co

TaRO 2011/02/14

リンク

hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

gumiの粟飯原です。データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。大規模データの解析日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

TaRO 2011/02/07

リンク

Hadoop～Yahoo! JAPANの活用について～

R言語で始めよう、データサイエンス（ハンズオン勉強会）〜機会学習・データビジュアライゼーション事始め〜

TaRO 2010/12/10

hadoop
db

リンク

Hadoop MapReduceプログラムを解剖する

オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

TaRO 2010/12/01

リンク

勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの？　データ全部をなめてるの？ Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか？さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの？ jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。あとで調べときます。今の世の中に出てるHadoop本って構築とか運用の話

TaRO 2010/09/16

リンク

Hadoopリンクまとめ(1) - 科学と非科学の迷宮

Part1 / Part2 更新履歴 2010/06/20 リンク追加入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加性能測定公式 Welcome to Apache Hadoop! 日本語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

TaRO 2010/08/11

リンク

Runtime error - Meta Search

Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfa mfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

TaRO 2010/08/10

hadoop
hbase

リンク

HBase 基礎文法最速マスター - Stay Hungry. Stay Foolish.

基礎文法最速マスターが流行のようなので、便乗して勉強がてらにHBaseの基本操作について纏めてみます。 Perl基礎文法最速マスター - Perl入門ゼミはてな的プログラミング言語人気ランキング - Life like a clown これを読めばGoogleのBigTableのクローンであるHBaseの基本操作について何となく理解できるかも？です。他の基礎文法最速マスターと同じように簡易リファレンスを兼ねていますので足りない部分をあればご指摘ください。 HBaseは2010-02-01時点で最新のHBase0.20.3を対象としています。インストール方法については前記事を参照ください。 Cygwinを利用してWindowsにHBaseをインストール - Stay Hungry. Stay Foolish. 対話式シェルの実行基本 HBaseではHBase Shellという対話式

TaRO 2010/08/09

hadoop
hbase

リンク

Hadoop WordCountメモ(Hishidama's Hadoop tutorial WordCount Memo)

Eclipseの設定チュートリアルのページではjavacコマンドを使ってコンパイルしているが、やはりコーディングにはEclipseを使いたい。 Hadoopのjarファイルをビルドパスに追加するだけでよい。 jarファイル備考チュートリアルのソースチュートリアルのソースはHadoop0.20.1より前のバージョンのものらしく、0.20.1だとコンパイルが警告になる（警告になるだけで、実行は出来る）。なので、（正しいかどうか分からないけど＾＾；）0.20.1用に直してみた。 // http://oss.infoscience.co.jp/hadoop/common/docs/current/mapred_tutorial.html 2010-02-21 package jp.hishidama.hadoop.tutorial; import java.io.IOException;

TaRO 2010/08/06

hadoop

リンク

Hadoop擬似分散環境メモ(Hishidama's Hadoop pseudo-distributed Memo)

S-JIS[2010-03-27/2010-04-04] 変更履歴 Hadoop 擬似分散環境 Hadoopの擬似分散モードをWindowsで試す方法について。擬似分散環境は、分散環境の各サービス（デーモン）を1台のマシン上で動かすモード。したがって、各サービスの動作方法は本来の分散モードと全く同じになる。

TaRO 2010/08/06

hadoop

リンク

満員御礼！「Hadoop Hack Night2」レポート

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。広報スタッフの楢崎です。昨日、「Hadoop Hack Night2」を開催させていただきました。当選された100名にお集まりいただき、Ustream中継やTwitterでも多くの方にご参加いただきました。ありがとうございました。第三部、トークセッションの様子写真左からモデレーター・馮富久氏（株式会社技術評論社）、太田一樹氏（株式会社プリファードインフラストラクチャー）、大谷晋平氏（株式会社電通国際情報サービス）、清田陽司氏（株式会社リッテル／東京大学情報基盤センター）、古宮陽明（ヤフー株式会社）、吉田一星（ヤフー株式会社）詳しいレポート記事は、後ほど技術評論社さんの「gihyo.jp」に

TaRO 2010/08/06

リンク

Hadoop-ec2環境の構築[ClouderaのAMIをベースにHadoop環境を構築]

自分で設定したカスタムのAMIを作っておけば、hadoop-ec2スクリプトで簡単に計算ノードを追加できます。まずはClouderaのAMIをベースにしてHadoop環境を構築してカスタムのAMIとして保存しようと思います。 Clouderaが提供しているAMIの一覧からfedoraの64bitを選びました。 cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4a 以下はインスタンスを１台起動してrootでログインしての作業です。 ________ __ /\ _____\ /\ /\ \ \ \ \____/ /\ \ ____ __ __ _\_\ \ ____ __ ____ _____ \ \ \ \ \ \ / __ \ /\ \/\ \ / ___ \ / __ \ /\

TaRO 2010/08/05

リンク

はてなブックマーク

タグ

関連タグで絞り込む (31)

hadoopに関するTaROのブックマーク (49)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス