[B! Hadoop] [10ページ] yukimori_726のブックマーク

Reading data from HDFS programatically using java (and scala)

yukimori_726 2014/06/17

リンク

IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

yukimori_726 2014/06/13

リンク

MacBook Pro を手に入れて最初にやったこと - Qiita

この記事は Hadoop Advent Calender の第23日目です．この記事では，私が MacBook Pro を手に入れてすぐにやったことをまとめていきます．開発環境を整えるなにはともあれ，開発環境を整えましょう． XCode をインストールする． Java 1.6 をインストールする． homebrew をインストールする(インストール方法は，homebrew のページの一番下段)． git，maven3，protocol buffers を homebrew 経由でインストールする．

yukimori_726 2014/06/13

hadoop
build

リンク

Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足

Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。でもうまくやれば、スタンドアローンモード限定だが、Eclipse から jar も作らずそのまま Map-Reduce ジョブを起動できる。デバッグ実行もできるので、ブレイクポイント入れてステップ実行とかも可能だ。今回はそういう環境の作り方の話。ずいぶん苦労したけど、出来るようになったら簡単。 Eclipse のセットアップなどは済んでいるものとする。Mahout の開発環境を Maven+Eclipse で作る (1) - Mi manca qualche giovedi`? 参照。なお、Hadoop を展開すると contrib/

yukimori_726 2014/06/13

hadoop
build

リンク

毎秒10億件以上のリアルタイムイベントを処理するDataTorrent 1.0

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

yukimori_726 2014/06/13

リンク

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita

Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。hadoophiveImpalaElasticMapReduceEMR EC2安くなる気がついたら、EC2がだいぶ値下げしていて、我が家のニコニコデータセットの分析環境のHive利用料も安くなっていた。参考【AWS発表】42回目の値下げ！EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも！ http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分

yukimori_726 2014/06/11

リンク

GitHub - prestodb/presto: The official home of the Presto distributed SQL query engine for big data

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2014/06/10

リンク

Hadoop WordCountメモ(Hishidama's Hadoop tutorial WordCount Memo)

Eclipseの設定チュートリアルのページではjavacコマンドを使ってコンパイルしているが、やはりコーディングにはEclipseを使いたい。 Hadoopのjarファイルをビルドパスに追加するだけでよい。 jarファイル備考チュートリアルのソースチュートリアルのソースはHadoop0.20.1より前のバージョンのものらしく、0.20.1だとコンパイルが警告になる（警告になるだけで、実行は出来る）。なので、（正しいかどうか分からないけど＾＾；）0.20.1用に直してみた。 // http://oss.infoscience.co.jp/hadoop/common/docs/current/mapred_tutorial.html 2010-02-21 package jp.hishidama.hadoop.tutorial; import java.io.IOException;

yukimori_726 2014/06/10

リンク

EclipseにHadoopの開発環境を作る。 - tetsuya_odakaの日記

2014/6/13 新しい記事があります。「EclipseでHadoop2.4の開発環境を作る＆ワードカウントのプログラムを作成する。」 - Hadoopを実験するにあたって、プログラムが作れる環境を構築した。構築には、「30 分で NetBeans を使って Hadoop のプログラムを作ってみる」を参考にさせていただいた。ただし、慣れているEclipse（Juno）を使うことにした。開発機はMac Book Pro (OSX Lion)。まず、Eclipseの本家ページより、Eclipse Juno JEEをダウンロードして、抵当な場所に解凍し、wordbenchを開くところまでやる。次にhadoopの本家サイトより、hadoop-1.1.2をダウンロードし、ホームディレクトリに解凍、以下のようなシンボリックリンクを張った。 Java プロジェクトの作成 javaパースペクテ

yukimori_726 2014/06/10

リンク

http://svn.apache.org/repos/asf/hadoop/common/trunk/BUILDING.txt

yukimori_726 2014/06/10

hadoop
build

リンク

Hadoop-Gfarmプラグインの使用方法

Hadoop-GfarmプラグインはHadoopからGfarmを使うためのプラグインです． Hadoop本体のコードを修正することなく，ビルドしたライブラリファイルを追加し，設定ファイルに少し加えるだけでHDFSの代わりにGfarmをHadoopのファイルシステムとして使えます． Gfarmはオープンソースの共有ファイルシステムですが，詳細はこちらへ Hadoop-Gfarmのソースコードは以下のコマンドでsourceforgeから入手可能です． svn co https://gfarm.svn.sourceforge.net/svnroot/gfarm/gfarm_hadoop/trunk gfarm_hadoop Hadoop-Gfarm をビルドするには build.sh の JAVA_HOME と HADOOP_HOME を編集します。 #!/usr/bin/env bash

yukimori_726 2014/06/10

hadoop

リンク

Hadoopをカスタマイズする

yukimori_726 2014/06/10

hadoop
build

リンク

EclipseでHadoopソースを読む準備 - kj-ki’s blog

これまでずっとEmacsで暮らしてきた人間が，HadoopのためにまさかのEclipse導入です． trunk(今回はMapReduce部分)をコンパイルするところまでのメモ．なお，参考URLにある，Vimeoの動画を先に見た方がよいです．何はともあれEclipse Eclipse Downloadsからバイナリをダウンロードして，インストール環境設定 ANT_HOME設定 Java-BuildPath-Variablesを選んで，ANT_HOMEを/usr/share/antにします Pluginインストール SVNKitをインストール (http://eclipse.svnkit.com/1.3.x/) Subclipseをインストール (http://subclipse.tigris.org/update_1.2.x) ただし，PCにインストールされているSubversionの

yukimori_726 2014/06/10

リンク

hadoopのソースコードをeclipseにインポートしてデバッグ起動する時のメモ(NameNode編） - Flicker's Style++

環境は Mac OS10.7.4 Eclipse Version: Indigo Service Release 2 eclispe ivy pluginのインストール http://www.atmarkit.co.jp/fjava/rensai4/devtool22/devtool22_1.html を参考にivyのpluginをeclipseにインストール hadoopのsvnリポジトリからcheckoutする http://svn.apache.org/repos/asf/hadoop/common/trunk 直下をcheckoutする ※このsvnディレクトリをrootディレクトリとした階層プロジェクトになっている。（pom.xmlのparentタグを利用している）依存ライブラリの解決 Ivyによるライブラリダウンロード svnからのcheckoutしたプロジェクトだとivy.

yukimori_726 2014/06/10

hadoop
build

リンク

SGホールディングス、Hadoopで佐川急便の「宅配便ビッグデータ」分析

SGホールディングスがビッグデータの利活用に乗り出した。新たに分析基盤を構築し、年間13億個に及ぶ宅配便のデータを解析。出荷の伸びが期待できる見込み客を特定したり、配送トラックの割り当てを見直したりする。新システムで分析時間は従来の15分の1になる見込みだ。佐川急便を中核とするSGホールディングス（SGHD、京都市）は、蓄積した「宅配便ビッグデータ」を分析し、取引が拡大できそうな顧客企業の発掘や、配送トラックの積載効率向上に役立てようとしている。 SGHDは2014年春から順次、「ビッグデータ分析基盤システム」を稼働させる。米EMCや米ヴイエムウェア、米GE（ゼネラル・エレクトリック）が出資する米Pivotalの分散データベースソフト「Pivotal Greenplum Database」を採用し、宅配便ビッグデータの分析に必要なシステム基盤を整備する。新システムは、大量のデータを複数

yukimori_726 2014/06/06

hadoop

リンク

http://infra-engineer.com/hadoop/hadoop%E8%B1%A1%E6%9C%AC%E7%AC%AC2%E7%89%88-12%E7%AB%A0-hive-%E3%81%AE%E3%81%BE%E3%81%A8%E3%82%81/

yukimori_726 2014/06/05

hadoop
hive

リンク

RCFile，Parquet，ORCFile

この2ヶ月で，Cloudera/Twitter，Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました．Parquet と ORCFile です．この記事では，まず RCFile の復習をして，その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います．コードレベルの詳細な違いについては，次回以降で見ていきます． RCFile の復習 RCFile は　Record Columnar File の略で，Hive から利用できるストレージフォーマットです．特に，HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています． HDFS/S3 といったストレージでは，基本的にデータを計算機間で同じ負荷になるようにデータを分散配置します．このため，従来の列指向ストレージフォーマットのように適当に列毎に

yukimori_726 2014/06/03

リンク

Hadoop本読書会 - 3章 Hadoop分散ファイルシステム - 大規模分散技術勉強会 in 名古屋

大規模分散技術勉強会 in 名古屋トップページページ一覧メンバー編集 Hadoop本読書会 - 3章 Hadoop分散ファイルシステム最終更新：ID:oTc6wz6Jsg 2010年11月11日(木) 23:57:07履歴 Tweet Hadoop本 3章 Hadoop分散ファイルシステムの疑問点や気になる点について記述してください。 ※記入者、該当ページ・該当行は忘れずに書いて下さい。 HDFSって？ [記入者] terurou [該当箇所] 3章全般 Hadoop Distributed FileSystem（Hadoop分散ファイルシステム）一台のサーバでは扱えない大規模なデータ（ファイル）を、複数のサーバをクラスタ化することで扱えるようにする。クラスタ化することにより発生しうるネットワーク障害・ハードウェア障害について考慮されて設計されている。 HDFS上のデータを冗長化

yukimori_726 2014/06/03

hdfs
hadoop

リンク

［第6回］クラスターのアーキテクチャー HDFS編

第3回でディストリビューションとディトリビューターや製品ベンダーを詳しく説明しましたが、その後2012年6月に様々なベンダーからApache Hadoop関連製品が新たにリリースされています。米クラウデラは2012年6月5日（現地時間）、Apache Hadoopバージョン2をサポートしたCDH 4.0.0をリリースしました。同じくHadoopのディストリビューターである米ホートンワークスも2012年6月12日（現地時間）、Apache HadoopのディストリビューションHortonworks Data Platform （HDP） 1.0を、Apache Hadoop 1.0.3ベースでリリースしました。このディストリビューションには管理とモニタリングサービスを提供するコンポーネント、Apache AmbariベースのHortonworks Management Center （H

yukimori_726 2014/06/03

hadoop
hdfs

リンク

Hadoopの環境にあると便利なツール(parallel-ssh) - Taste of Tech Topics

こんばんは、はじめまして、 Skipperです。今日は、Hadoopに関連して、 Hadoopの環境にあると便利なツールの1つを紹介します。 #他にもKickStart、puppet、WOLなどあるのですが、書ききれないので #1つに絞りました。 parallel-ssh Hadoopで性能出すためには、マシンを最低10台必要だと言われています。ですが、仮に10台のマシンを用意したとして、 1台1台ログインしてログ集めたり、Hadoopのサービスを再起動したり… というのは面倒ですよね。このparallel-sshは、そんな面倒な操作をすべて1回でやってくれます。私もこれで複数台のPCを一度にシャットダウンの画面にしたときは、ちょっと感動しました。使い方使い方はいたって簡単。一度に操作したいマシンのホスト名(IPアドレス)をファイルに書き出し、 [hostlist] ce

yukimori_726 2014/06/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (158)

Hadoopに関するyukimori_726のブックマーク (284)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス