Cloudera makes bold bet on strategic acquisition of Verta’s Operational AI Platform Read the blog
![Cloudera](https://cdn-ak-scissors.b.st-hatena.com/image/square/aef67d99d3a26eaca7aea90f2f387234c1c02dab/height=288;version=1;width=512/https%3A%2F%2Fwww.cloudera.com%2Fcontent%2Fdam%2Fwww%2Fstatic%2Fimages%2Flogos%2Fcloudera-card.jpg)
Hadoopを利用するうえで必要な知識を密度濃くまとめた。 ◆ 構成 マスタ スレーブ HDFS NameNode DataNode MapReduce JobTracker TaskTracker mapper(×起動数) reducer(×起動数) 本ブログ内では物理ホスト3台を利用する。 node01 マスタ node02 スレーブ1 node03 スレーブ2 NameNodeのSecondaryNameNodeはどちらかを利用できる。 CheckpointNode 一定の間隔で同期する BackupNode 常に同じ情報を保持し同期する こちらは0.2.1以降でしか利用できない ◆ 事前作業 javaをインストールする。 # su - # yum install java-1.6.0-openjdk hostsへ登録する。 # vi /etc/
shiumachiさん・kernel023さん他の、ClouderaのHadoopに関するツイートの備忘です。
More Information Overview of RHadoop from the Revolution Analytics blog Slides and Replay of 30-minute presentation about RHadoop, "Leveraging R in Hadoop Environments" R in a Nutshell, 2nd edition devotes a good part of the last chapter to RHadoop. "The most mature (and best integrated) project for R and Hadoop is RHadoop." For developers Problems, Suggestions, Interesting Examples Post on the [R
This document describes the Fair Scheduler, a pluggable Map/Reduce scheduler for Hadoop which provides a way to share large clusters. Fair scheduling is a method of assigning resources to jobs such that all jobs get, on average, an equal share of resources over time. When there is a single job running, that job uses the entire cluster. When other jobs are submitted, tasks slots that free up are as
Writableの概要 Writableの種類 独自Writable WritableUtils [/2010-07-03] writeString() 可変長int 独自WritableComparable [2010-03-21] 独自RawComparator [2010-03-21] 開始位置の算出 [2010-03-21] 独自WritableComparator [2010-03-21] Writableの概要 Hadoopでは、ノード(サーバー)間のデータ転送や中間データ(メモリー上のバッファ内や一時ファイル)の保持をバイナリデータ(バイト列byte[])で行う。 その為、データを転送する前(出力前)にバイト配列に変換(シリアライズ)し、転送後(読込時)に復元(デシリアライズ)する必要がある。 Javaには標準でシリアライズ(java.io.Serializable)の仕組み
概要 本記事はCHD3を使ってSnappy(犬種はビーグル、趣味は変装)と少しばかり戯れた際のメモ書きです。 尚、本文中に出てくる実行時間はCore2DuoやAthllonⅡなどの割と貧弱なCPUによって実行されています。高性能なCPUで測ったらかなり数字は変わるはずなのでご注意ください。 Snappyの特徴 SnappyはGoogleが公開したオープンソースの圧縮ライブラリ。 圧縮率はイマイチだけど圧縮・伸長の速度は速い、Hadoopと相性の良い子。 ベンチマークを見た限りでは、圧縮率や速度はLZOと割と似た感じの数値になることが多い。 SnappyとLZOの一番の違いはライセンス。LZOはGPLなのでApacheライセンスのHadoopとは食べ合わせが悪い。対するSnappyはNew BSDなので同梱しやすい。 CDH3u3にはSnappyCodecが入っているので、特に追加のインスト
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
はじめに 今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。 レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。 連載の予定は次の通りです。 レコメンドシステムと集合知(今回) レコメンドシステムの実装と課題 協調フィルタリング(前・後編) コンテンツベースレコメンド(前・後編) 今回の記事のポイントは以下の通りです。 レコメンドシステムの目的は気付きと驚きを与えること 理想のレコメンドはソムリエのお薦め レコメンドシステムに必要なのは嗜好と専門性 では、早速はじめましょう。 レコメンドシステムとは? レコメンドシステムは情報フィルタリングの一種で、大量の
大体にしてインストールというかセッティングが面倒なので手順のメモ. ダウンロードして展開.クラスタの場合,本体の置き場所は NFS 上にしとくとインストールが楽(ログのディレクトリに注意).さもなければ全マシンの同じパスに置いておくべし(パスをマシンごとに変えていいのかどうか分からん).wget http://ftp.kddilabs.jp/infosystems/apache//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz tar xfvz hadoop-0.21.0.tar.gz cd hadoop-0.21.0 環境ファイル conf/hadoop-env.sh の編集:JAVA_HOME と HADOOP_HEAPSIZE と HADOOP_LOG_DIR. ログの出力先はデフォルトで hadoop の置いてあるディレクトリ(HADO
ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品
Please note that all new project news and releases have moved to https://cascading.wensel.net The Cascading Ecosystem is a collection of applications, languages, and APIs for developing data-intensive applications. At the ecosystem core is Cascading, a Java API for defining complex data flows and integrating those flows with back-end systems, and a query planner for mapping and executing logical f
こんにちは。 落合です。 MRUnit を使った、 Hadoop MapReduce のテスト方法をご紹介します。 MRUnitとは MRUnitは、Hadoop MapReduce のテストのためのライブラリです。 これを使うと、Hadoop MapReduce の JUnitテストを行うことができます。 Context を自分で作る必要もないため、 Mapper や Reducer の in と out の確認が簡単にできます。 開発環境を作る 本ブログ執筆時点で最新の、Cloudera のディストリビューション CDH3u1 を使いました。 以下のサイトでTarball(hadoop-0.20.2-cdh3u1.tar.gz)をダウンロードし解凍します。 https://ccp.cloudera.com/display/SUPPORT/Downloads 解凍したら、libの下と、h
__ __ __ / / / /___ _____/ /___ ____ ____ / /_/ / __ ‘/ __ / __ \/ __ \/ __ \ / __ / /_/ / /_/ / /_/ / /_/ / /_/ / /_/ /_/\__,_/\__,_/\____/\____/ .___/ /_/ インストール hadoopをcentosに入れてみる。最新バージョンは2011/11/25日の段階では0.23.0 各Linuxディストリビューションに対応済みのcdh3(Cloudera Distribution including Apache Hadoop v3)を入れる。cdh3の最新バージョンは0.20.0 hadoopの他に愉快な仲間達のhive,pig,hbaseも入れる。 jdkのインストール hadoopはjavaで動くので当然必要となる。既にインストール済みの場
This document discusses Hadoop and MapReduce. It describes how Hadoop uses MapReduce and how it was inspired by Google's implementation. It provides details on the key components of Hadoop including HDFS, JobTracker, TaskTracker, NameNode and DataNode. It also provides examples of using Hadoop with different programming languages like Java, Python and C/C++ and discusses tuning Hadoop performance.
The document discusses MapReduce and Hadoop. It provides an overview of MapReduce concepts including split, map, combine, shuffle, and reduce phases. It also describes how Hadoop Streaming allows other programming languages besides Java to be used for map and reduce functions. Finally, it mentions some MapReduce frameworks and languages like Pig, Hive, and Cascading that provide higher-level abstr
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く