[B! hadoop] volonteのブックマーク

[Hadoop]Hadoop 擬似分散（Psuedo-distributed）モードの設定 | Nobwak's Lair

Standaloneモードでは、複数のホストを使った処理は行わない。デーモンも動かさない。しかしHadoopは分散処理をしてナンボである。分散処理をする場合には、複数のホストでいくつかのデーモンを動作させる必要がある。それはまあ当然。ただ、いきなり複数ホストを使うのはハードルが高い。そこで、「Hadoopは複数ホストで動いているつもりだけど実際は1台のホストで動いている」モードで設定の確認をする。これが擬似分散（Psuedo-distributed）モード。擬似分散モードに必要な各設定の意味擬似分散（Psuedo-distributed）モードの動作には以下、四つの設定が必要。完全分散（Full distributed）モードでも変わらないんだけどね。 HDFSのメタデータを格納するnamenodeの設定データをいくつ複製(replication)するかの設定（デフォル

volonte 2016/01/19

擬似分散モードの作り方

hadoop

リンク

Apache Hadoop 2.5.0 セットアップ手順その1 – ローカル実行からシングルノードクラスター起動まで – hrendoh's tech memo

Apache PigなどHadoopも含めて関連技術を勉強中なので、MapReduceモードでPigを動作させるためにHadoopをセットアップしてみました。通常、オンプレにHadoop環境を構築する際は、Apache Hadoopではなく、ClouderaやHortonworksなどのディストリビューションを利用した方が良いですが、まずはApache Hadoopをインストールして実行を確認してみます。今回は、Ubuntu 14.04上にHadoop 2.5.0をシングルノードクラスター(疑似分散モード)としてセットアップしてMapReduceのサンプルを実行するまでの手順を試した際のメモになります。ほぼ、公式ドキュメントApache Hadoop 2.5.0 – Hadoop MapReduce Next Generation 2.5.0 – Setting up a Singl

volonte 2015/11/18

hadoop

リンク

『【研究課題レポート抜粋】Apache Mahout を用いたレコメンデーションエンジンの検討』

※このエントリは、社員のTossyさんによって作成された第5回研究課題レポートからの抜粋です。はじめに近年、機械学習が非常に注目を集めている。機械学習を用いることによって、データから有用な規則、ルール、知識表現、判断基準などを抽出することができる。機械学習を用いた例として、レコメンデーション、クラスタリング、分類、市場予測、評判分析、情報抽出、文字認識、ロボットなどが挙げられる。また、アメーバを含むインターネットサービスの普及により、解析対象データが急激に増加している。解析アルゴリズムは最低でも線形の計算量が必要だが、それでも昨今のデータ増加量が上回っている。世界で作成されたデータ量は、2009 年時点で0.8ZB にもなっており、2020 年には35ZB にも膨れ上がると予想されている(Degital Universe 2010)。このことにより、機械学習処理の並列分散は今後

volonte 2015/09/11

リンク

[Hadoop]Hadoop上でMahoutを使って「このアイテムを見た人は、こちらのアイテムも見ています」というレコメンドをやってみる | GENDOSU@NET

前回はHadoopのインストールで、今回がいきなり実用的な内容で、ちょっと基礎を飛ばしてますが、気にしない。レコメンドというと、パッと思いつくのはAmazonのレコメンドではないでしょうか。商品を見ていると、「この商品を買った人はこれも一緒に買っています。」といった感じの物ですね。今回はこのレコメンドを簡単に実装する方法を探ってみます。まず、解析後に欲しいデータとしてあるアイテム(it em1)に対して、関連するアイテム(it em2,it em3,it em4)をひもづけるデータです。データベースに入れて使える状態で言うと (ユーザが今開いたアイテムのID), (ユーザが開いたアイテムに関連するアイテムのID) it em1, it em2 it em1, it em3 it em2, it em4 … というキーバリューのペアです。この結果を得るために必要な情報ですがユーザ毎にアクセスした

volonte 2015/09/11

リンク

「Hadoop」よく使うコマンドまとめてみた - プログラム日記

だいぶ前になりますが、以下のエントリーで Hadoop をインストールしました。・「Hadoop」CentOS に Hadoop をインストールする - プログラム日記 http://a4dosanddos.hatena blog.com/entry/2013/04/19/125022 今回は、↑環境使って Hadoop でよく使うであろうコマンドをまとめてみました。 ( ちょっとした時にメモあると便利かなということで。まぁ、ドキュメントみればええやんって話ですが・・・ ) ■ ディレクトリ作成 ./hadoop fs -mkdir /user/test/dir1■ ファイルのコピー - ローカルのファイルシステムから HDFS ./hadoop fs -put ./test.txt /user/test/dir1 ./hadoop fs -copyFromLocal ./test.txt

volonte 2015/09/11

hadoop

リンク

Hadoop HDFSコマンド実行メモ（0.20.1）

# 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the

volonte 2012/11/06

hadoop

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

volonte 2012/01/30

テキストマイニングは、一度やり方を確認すべし。

hadoop

リンク

WordCount - HADOOP2 - Apache Software Foundation

WordCount Example WordCount example reads text files and counts how often words occur. The input is text files and the output is text files, each line of which contains a word and the count of how often it occured, separated by a tab. Each mapper takes a line as input and breaks it into words. It then em its a key/value pair of the word and 1. Each reducer sums the counts for each word and em its a

volonte 2010/12/07

hadoop

リンク

MapReduce デザインパターン (2) - めもめも

"word co-occurrence probl em" （文書内の近くにペアで出現する単語の数をカウントする処理）の２つの基本パターンである "Pairs" と "Stripes" から、まずは、Pairs を見てみます。事前準備「カラマーゾフの兄弟」のテキストを HDFS に保存しておきます。 $ wget http://www.gutenberg.org/files/28054/28054.zip $ unzip 28054.zip $ hadoop fs -copyFromLocal 28054.txt Karamazov.txt ソースコード例えば、連続して出現する単語のペアをカウントする場合、次のようなコードが書けます。 pairs/TextPair.java package pairs; /* テキストのタプルを Key に使用するためのクラスです。像本のサンプル・コ

volonte 2010/12/07

hadoop

リンク

Hadoop MapReduceプログラムを解剖する

オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

volonte 2010/12/07

hadoop

リンク

HadoopでN-gramで転置インデックス作成

Hadoopのサンプルコードと言えばwordcountぐらいしか見かけないということで，転置インデックスのサンプルを作ってみました．転置インデックス作成をMapReduceのモデルで表すと以下になります．google論文に習った擬似コードで表します． Map: 単語ごとに文書名を出力しています．単語の分割をfor each wordとしていますが，日本語の場合単語の分割が問題ですが，今回は単純なN-gramで実装しました． map(String key, String value): //key: 文章名 //value: 文章の内容 for each word w in value: Em itIntermediate(w, key); Reduce: 重複を取り除くだけです．valuesでソートするとなお良いかもしれません reduce(String key, Iterato

volonte 2010/12/07

hadoop

リンク

MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT

MapReduceのJava実装Apache Hadoopを使ってみた：いま再注目の分散処理技術（後編）（1/3 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部） Apache Hadoopプロジェクトとは何か？本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。そのMapReduceアルゴリズムをJavaで実装したも

volonte 2010/12/07

hadoop

リンク

MapReduce デザインパターン (6) - めもめも

"Graph algorithms" を考えます。下図の S, A, B, C, D は 5 つの Web ページで、矢印は、Web リンクを表しているとします。（このような関係は、『有向グラフ』と捉えることができます。）このとき、ページ S からスタートして、最低、何クリックで、A 〜 D の各ページに到達するかを計算します。 ___________ ___________ ｜　　　　↓| ↓ Ｓ → Ａ → Ｂ → Ｃ ← Ｄ ↑____|↑__________|____↑ 再帰的な計算をごにょごにょすれば、何とかなる気がしますが（普通は、ダイクストラのアルゴリズムを使います）、MapReduce の場合は、基本的には『端から順番になめていく』タイプの計算しかできないので、次のように考えます。 1. 各ページの求める答えを（最初は不明なので）『？』と定義します。（S 自身は、不明で

volonte 2010/12/07

hadoop

リンク

MapReduce/Hadoop環境構築（Linux編） - 俺の基地

Hadoop環境構築メモ vmware上にvmとして構築 CentOS5.3のインストール標準でサーバーとかは入れていない vmware-toolsをインストールしてホストのWindowsと楽に連携できるようにしておく標準でopenjdkが入っているので消しておく yum remove java javaを使うプログラムがごっそりなくなるけど気にしない。 Sunバージョンを使うのでrpmをダウンロードします。 Java SE ダウンロード - Sun Developer Network (SDN) ここらへんから Linux版をダウンロードこれ jdk-6u15-linux-i586-rpm.bin chmod +x jdk-6u15-linux-i586-rpm.bin ./jdk-6u15-linux-i586-rpm.bin バージョンチェック java -vers

volonte 2010/12/07

hadoop

リンク

Hadoopサンプル(Hishidama's Hadoop Java sample Memo)

行毎の合算を行うサンプル以下のような成績表（試験の点数のCSVファイル）から、各学生ごとの合計点数を算出する例。 #番号,名前, 数学,国語,理科,社会,英語 101,天才, 100, 100, 100, 100, 100 201,無気力, 5, 30, 10, 20, 15 102,ひしだま, 90, 85, 80, 50, 10 202,hoge, 10, 30, 25, 45, 20 103,foo, 60, 60, 60, 60, 25 204,xxx, 80, 77, 90, 40, 44 205,yyy, 65, 90, 55, 80, 65 104,zzz, 40, 60, 60, 70, 20 出力イメージ： 101,天才 500 102,ひしだま 315 103,foo 265 104,zzz 250 201,無気力 80 202,hoge 130 204,xxx 33

volonte 2010/12/07

hadoop

リンク

Hadoopメモ

yoshitsuguです。明けましておめでとうございます。いや、仕事始めは昨日だったんだけれども。クラウドコンピューティングがもてはやされてます。Hadoopはその中心的な技術のような扱いですね。しかし、実は、私、Hadoopとクラウドの関係がいまいち解ってません。大量データの処理がなんでクラウドコンピューティングと紐付くのでしょうか。クラウドコンピューティングの大まかな定義は、「『ネットの向こう側＝雲の向こう側』で実行されるアプリケーション群を利用すること」だと認識しています。代表はGMail、GoogleDocumnent、GoogleAppEngine、AmazonEC2など。広い意味ではWebMail系のWebアプリケーションも含まれるのでしょうか。 GoogleDocumentやGoogleAppEngineの裏側でGFSやBigTableやMapReduce

volonte 2010/12/06

hadoop

リンク

Map/Reduce Tutorial

このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。通常、Map/Reduce のジョブは、入力データセットを独立

volonte 2010/12/03

hadoop

リンク

Hadoopのインストールとサンプルプログラムの実行

前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました（図1 参照）。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS（Hadoop Distributed File System）、Hadoop MapReduce F