[B! Hadoop] arephのブックマーク

areph id:areph

Hadoopに関するarephのブックマーク (32)

Cloudera
Cloudera makes bold bet on strategic acquisition of Verta’s Operational AI Platform Read the blog
areph 2014/07/02
hadoop
リンク
Hadoop 最速マスター
Hadoopを利用するうえで必要な知識を密度濃くまとめた。 ◆ 構成マスタスレーブ HDFS NameNode DataNode MapReduce JobTracker TaskTracker mapper(×起動数) reducer(×起動数) 本ブログ内では物理ホスト３台を利用する。 node01 マスタ node02 スレーブ1 node03 スレーブ2 NameNodeのSecondaryNameNodeはどちらかを利用できる。 CheckpointNode 一定の間隔で同期する BackupNode 常に同じ情報を保持し同期するこちらは0.2.1以降でしか利用できない ◆ 事前作業 javaをインストールする。 # su - # yum install java-1.6.0-openjdk hostsへ登録する。 # vi /etc/
areph 2014/06/24
hadoop
リンク
shiumachi先生のCDH講座2012
shiumachiさん・kernel023さん他の、ClouderaのHadoopに関するツイートの備忘です。
areph 2014/06/11
hadoop
リンク
RHadoop - GitHub
More Information Overview of RHadoop from the Revolution Analytics blog Slides and Replay of 30-minute presentation about RHadoop, "Leveraging R in Hadoop Environments" R in a Nutshell, 2nd edition devotes a good part of the last chapter to RHadoop. "The most mature (and best integrated) project for R and Hadoop is RHadoop." For developers Probl ems, Suggestions, Interesting Examples Post on the [R
areph 2014/01/22
R

hadoop
リンク
[MAPREDUCE-541] NullPointerException in fairshare PoolManager - ASF JIRA
areph 2012/08/24
hadoop

mapreduce

FairScheduler
リンク
Fair Scheduler Guide
This document describes the Fair Scheduler, a pluggable Map/Reduce scheduler for Hadoop which provides a way to share large clusters. Fair scheduling is a method of assigning resources to jobs such that all jobs get, on average, an equal share of resources over time. When there is a single job running, that job uses the entire cluster. When other jobs are submitted, tasks slots that free up are as
areph 2012/08/24
hadoop

MapReduce

FairScheduler
リンク
Hadoop Writableメモ(Hishidama's Hadoop Writable Memo)
Writableの概要 Writableの種類独自Writable WritableUtils [/2010-07-03] writeString() 可変長int 独自WritableComparable [2010-03-21] 独自RawComparator [2010-03-21] 開始位置の算出 [2010-03-21] 独自WritableComparator [2010-03-21] Writableの概要 Hadoopでは、ノード（サーバー）間のデータ転送や中間データ（メモリー上のバッファ内や一時ファイル）の保持をバイナリデータ（バイト列byte[]）で行う。その為、データを転送する前（出力前）にバイト配列に変換（シリアライズ）し、転送後（読込時）に復元（デシリアライズ）する必要がある。 Javaには標準でシリアライズ（java.io.Serializable）の仕組み
areph 2012/08/21
hadoop

Writable
リンク
HadoopでSnappyを使ってみたメモ | mwSoft
概要本記事はCHD3を使ってSnappy（犬種はビーグル、趣味は変装）と少しばかり戯れた際のメモ書きです。尚、本文中に出てくる実行時間はCore2DuoやAthllonⅡなどの割と貧弱なCPUによって実行されています。高性能なCPUで測ったらかなり数字は変わるはずなのでご注意ください。 Snappyの特徴 SnappyはGoogleが公開したオープンソースの圧縮ライブラリ。圧縮率はイマイチだけど圧縮・伸長の速度は速い、Hadoopと相性の良い子。ベンチマークを見た限りでは、圧縮率や速度はLZOと割と似た感じの数値になることが多い。 SnappyとLZOの一番の違いはライセンス。LZOはGPLなのでApacheライセンスのHadoopとは食べ合わせが悪い。対するSnappyはNew BSDなので同梱しやすい。 CDH3u3にはSnappyCodecが入っているので、特に追加のインスト
areph 2012/08/21
hadoop

圧縮

snappy
リンク
overlasting.net
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
areph 2012/08/20
今まで無圧縮でMapReduceしてたので利用してみたい

hadoop

snappy

圧縮
リンク
第1回　レコメンドシステムと集合知 | gihyo.jp
はじめに今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。連載の予定は次の通りです。レコメンドシステムと集合知（今回）レコメンドシステムの実装と課題協調フィルタリング（前・後編）コンテンツベースレコメンド（前・後編）今回の記事のポイントは以下の通りです。レコメンドシステムの目的は気付きと驚きを与えること理想のレコメンドはソムリエのお薦めレコメンドシステムに必要なのは嗜好と専門性では、早速はじめましょう。レコメンドシステムとは？レコメンドシステムは情報フィルタリングの一種で、大量の
areph 2012/08/07
hadoop

レコメンド

統計

アルゴリズム
リンク
No Such Blog or Diary - Hadoop に言うことを聞かせるまでのメモ
大体にしてインストールというかセッティングが面倒なので手順のメモ．ダウンロードして展開．クラスタの場合，本体の置き場所は NFS 上にしとくとインストールが楽（ログのディレクトリに注意）．さもなければ全マシンの同じパスに置いておくべし（パスをマシンごとに変えていいのかどうか分からん）．wget http://ftp.kddilabs.jp/infosystems/apache//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz tar xfvz hadoop-0.21.0.tar.gz cd hadoop-0.21.0 環境ファイル conf/hadoop-env.sh の編集：JAVA_HOME と HADOOP_HEAPSIZE と HADOOP_LOG_DIR．ログの出力先はデフォルトで hadoop の置いてあるディレクトリ(HADO
areph 2012/08/06
hadoop
リンク
Charming Python: Functional programming in Python, Part 3
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
areph 2012/08/06
hadoop

mapreduce

マルチコア

スケジューラ
リンク
試すのが難しい―機械学習の常識はMahoutで変わる
ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品
areph 2012/07/20
機械学習

hadoop

Apache

Mahout
リンク
Cascading
Please note that all new project news and releases have moved to https://cascading.wensel.net The Cascading Ecosystem is a collection of applications, languages, and APIs for developing data-intensive applications. At the ecosystem core is Cascading, a Java API for defining complex data flows and integrating those flows with back-end systems, and a query planner for mapping and executing logical f
areph 2012/02/03
hadoop

cascading

API

mapreduce
リンク
MRUnitでHadoop MapReduceの試験を - Taste of Tech Topics
こんにちは。落合です。 MRUnit を使った、 Hadoop MapReduce のテスト方法をご紹介します。 MRUnitとは MRUnitは、Hadoop MapReduce のテストのためのライブラリです。これを使うと、Hadoop MapReduce の JUnitテストを行うことができます。 Context を自分で作る必要もないため、 Mapper や Reducer の in と out の確認が簡単にできます。開発環境を作る本ブログ執筆時点で最新の、Cloudera のディストリビューション CDH3u1 を使いました。以下のサイトでTarball（hadoop-0.20.2-cdh3u1.tar.gz）をダウンロードし解凍します。 https://ccp.cloudera.com/display/SUPPORT/Downloads 解凍したら、libの下と、h
areph 2011/12/26
hadoop

MapReduce

MRUnit
リンク
http://infra-engineer.com/tag/hadoop-2/
areph 2011/12/22
hadoop
リンク
CentOSでHadoopを使ってみる - Y's note
__ __ __ / / / /___ _____/ /___ ____ ____ / /_/ / __ ‘/ __ / __ \/ __ \/ __ \ / __ / /_/ / /_/ / /_/ / /_/ / /_/ / /_/ /_/\__,_/\__,_/\____/\____/ .___/ /_/ インストール hadoopをcentosに入れてみる。最新バージョンは2011/11/25日の段階では0.23.0 各Linuxディストリビューションに対応済みのcdh3(Cloudera Distribution including Apache Hadoop v3)を入れる。cdh3の最新バージョンは0.20.0 hadoopの他に愉快な仲間達のhive,pig,hbaseも入れる。 jdkのインストール hadoopはjavaで動くので当然必要となる。既にインストール済みの場
areph 2011/12/21
Hadoop

MapReduce

HadoopStreaming

python
リンク
ちょっとHadoopについて語ってみるか（仮題）
This document discusses Hadoop and MapReduce. It describes how Hadoop uses MapReduce and how it was inspired by Google's implementation. It provides details on the key components of Hadoop including HDFS, JobTracker, TaskTracker, NameNode and DataNode. It also provides examples of using Hadoop with different programming languages like Java, Python and C/C++ and discusses tuning Hadoop performance.
areph 2011/12/14
hadoop

MapReduce
リンク
はじめてのまっぷりでゅ〜す
The document discusses MapReduce and Hadoop. It provides an overview of MapReduce concepts including split, map, combine, shuffle, and reduce pha ses. It also describes how Hadoop Streaming allows other programming languages besides Java to be used for map and reduce functions. Finally, it mentions some MapReduce frameworks and languages like Pig, Hive, and Cascading that provide higher-level abstr
areph 2011/12/14
hadoop

MapReduce
リンク
http://infra-engineer.com/hadoop/hadoop%E3%81%AB%E9%96%A2%E3%81%97%E3%81%A6%E3%81%BE%E3%81%A8%E3%82%81%E3%81%A6%E3%81%84%E3%82%8B%E3%82%B5%E3%82%A4%E3%83%88%E3%81%AE%E3%81%BE%E3%81%A8%E3%82%81/
areph 2011/12/14
hadoop
リンク
1 2 次のページ