AWS Black Belt Tech Webinar 2014 (旧マイスターシリーズ) Amazon EMRRead less
出典:日経コンピュータ 2012年6月7日号 pp.102-103 (記事は執筆時の情報に基づいており、現在では異なる場合があります) Hadoopの高速性をひも解くとき、分散ファイルシステム「HDFS」の存在は欠かせない。MapReduceと協調して行う“ローカル処理”は、バッチ処理の高速化に向くアーキテクチャーだ。そんなHDFSにも、BIツールなどが使いづらいという課題がある。HDFSの代替製品をHadoopに組み込む動きは、その解決を目指すものだ。 「HDFS(Hadoop Distributed File System)」は、その名の通り分散バッチ処理ソフト「Apache Hadoop」向けのファイルシステムだ。ファイルを分割して複数のディスクで管理、大量データ処理のスループットを引き上げる。最近になり、HDFSの課題を解決しようと、代替製品をHadoopに組み込む例が増えてきた。
1. 2011 2/22(火) Hadoop Conference Japan 2011 MapReduceによる大規模 データを利用した機械学習 株式会社Preferred Infrastructure 岡野原 大輔 hillbig@preferred.jp @hillbig 1 2. 自己紹介 株式会社 Preferred Infrastructure フェロー, 研究開発チームリーダー 専門分野 自然言語処理 (情報理工学博士) 携わった分野は形態素解析、文書分類/クラスタリング、専 門用語抽出、評判分類、情報抽出 機械学習,統計処理・圧縮データ構造,データ圧縮 主な業務内容 有用な技術を新規開発・発掘しプロダクトに反映 他社との共同研究開発 Hadoopを利用したデータ解析の案件も数件 2
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。 純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま
AWS Glue is a serverless data integration service that makes it easy for analytics users to discover, prepare, move, and integrate data from multiple sources. You can use it for analytics, machine learning, and application development. It also includes additional productivity and data ops tooling for authoring, running jobs, and implementing business workflows. With AWS Glue, you can discover and
こんにちは、小澤です。 この記事はHadoop Advent Calendar 7日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はHiveを使ってHadoop上のデータにSQLでアクセスする方法を紹介しました。 今回はTezについて書かせていただきたいと思います。 Tezとは Hadoop上で動くフレームワークの一種です。 YARNの登場によって、MapReduce以外の分散処理フレームワークもHadoop上で動くようになりました。 Tezはそれを利用してMapReduceよりも柔軟かつ効率的に分散処理を行うためのフレームワークとなっております。 ただし、TezはMapReduceとは異なり、直接書くというよりは、Hiv
Apache Hive The Apache Hive ™ is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale and facilitates reading, writing, and managing petabytes of data residing in distributed storage using SQL. Github Mail Docker Community Apache Hive is a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale. Hive Metastore(HMS) provid
SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。 クラスタマネージャとしてのYARN Sparkはアプリケーション(厳密にはSparkアプリケーション)ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr
Amazon Web Services ブログ Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを 私達が扱わなければいけないデータの量は日々増え続けています(私は、未だに1,2枚のフロッピーディスクを持っていて、1.44MBというのが当時はとても大きいストレージだったことを思い出せるようにしています)。今日、多くの人々が構造化されたもしくは準構造化されたペタバイト規模のファイル群を、日常的に処理してクエリしています。彼らはこれを高速に実行したいと思いつつ、前処理やスキャン、ロード、もしくはインデックスを貼ることに多くの時間を使いたいとは思っていません。そうではなくて、彼らはすぐ使いたいのです: データを特定し、しばしばアドホックに調査クエリを実行して、結果を得て、そして結果に従って行動したいと思っていて、それらを数分の内に行いたいのです。 Amazon
require 'trino-client' # create a client object: client = Trino::Client.new( server: "localhost:8880", # required option ssl: {verify: false}, catalog: "native", schema: "default", user: "frsyuki", password: "********", time_zone: "US/Pacific", language: "English", properties: { "hive.force_local_scheduling": true, "raptor.reader_stream_buffer_size": "32MB" }, http_proxy: "proxy.example.com:8080",
Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets. At the present time, Pig's infrastructure l
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く