タグ

分散処理に関するmikurassのブックマーク (10)

  • Apache Sparkとは何か――使い方や基礎知識を徹底解説

    はじめまして。コラビットの川原と申します。私は「HowMa」というサービスで、Apache Spark(以下、Spark)を利用した住宅価格の推定エンジンの開発を担当しています。連載では、Sparkの概要や、ローカル環境でのSparkのクラスタの構築、Sparkの基的な概念やプログラミングの方法を説明していきます。そして、簡単なアプリケーションを作成して、Amazon EMR(Elastic MapReduce)のクラスタ上で実行できるまで解説します。 これからSparkの導入を考えている方、または、業務で使う予定はないが少し興味がある方を対象に、サービス運用の中で得た知識を提供できればと思います。 Apache Sparkとは Apache Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。JavaScalaPythonなどいろいろなプログラ

    Apache Sparkとは何か――使い方や基礎知識を徹底解説
  • Welcome to Chukwa!

  • 並列分散処理の常識をHadoopファミリから学ぶ

    並列分散処理の常識をHadoopファミリから学ぶ:ビッグデータ処理の常識をJavaで身につける(2)(2/3 ページ) Threadによる並列分散プログラミングの7つの課題 並列分散処理の課題の例として、Javaの「Thread」クラスを使った例を見ていきます。Threadクラスを使用することで、Fork/Joinという並列処理を簡単に実装できます。並列プログラムの課題も、このコードに潜んでいるので、クイズと思って探してください。 今回、以下のような「売上伝票の世代別分析」という要件を題材にして考えてみます。 ある店舗の 売上伝票データ20万件を世代別(〜5歳/6〜15歳/../86歳以上の9つに区分化)に集計し、伝票数と合計金額を出力 売上伝票(伝票番号、商品名、金額、顧客番号、顧客番号、顧客名、性別、生年月日、カード番号) 伝票データを1行ずつファイルから読み込み、Thread内で、文

    並列分散処理の常識をHadoopファミリから学ぶ
  • 並列分散処理の常識をHadoopファミリから学ぶ

    並列分散処理の常識をHadoopファミリから学ぶ:ビッグデータ処理の常識をJavaで身につける(2)(3/3 ページ) 3つの課題に応える「Hadoopファミリ」 関連プロジェクトは、Hadoopが抱える以下の3つの課題に応えたものです。 【課題1】「並列分散処理をもっと簡単に書きたい」 MapReduceをJavaで書く処理はある種のひらめきが必要ともいわれます。特に、SQLで書かれていた処理をMapReduceで書き替える場合、思考の切り替えが必要で苦労することも多いようです。たとえ慣れていても、Hadoopで簡単なデータ加工したい、そのためだけに多くのクラス定義をするのは面倒です。 この難易度を下げるハイレベル言語として「Hive」「Pig」が存在します。どちらの言語もSQLやストアドプロシジャのようなコードを書いて、MapReduceを動かせます。対話型のシェルユーティリティもあり

    並列分散処理の常識をHadoopファミリから学ぶ
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術

    はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。 これまでの連載 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日語のブログをクロール、リアルタイムに分析して、流行語と思わ

    blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術
  • Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記

    「何番煎じか分からないけど集合知プログラミングをPHPでやってみたシリーズ」で扱っている集合知プログラミングは、とかく計算量が多くなりがちで、うまくアルゴリズムを作らないとメモリ不足に陥りがちです。 現に前回の記事では、その越えられない壁を体験してしまったので、「どげんかせんといかん。」という事で、最近ちょっと興味のある、Googleのバックエンドでも使われている"MapReduce"に関して少し調べてみました。 "MapReduce"に関しては、「"Googleを支える技術"読め。以上。」でもいいんですが、id:naoyaさんが書かれている記事が非常に分かりやすかったので、その記事のリンクを貼っておきます。 →MapReduce - naoyaのはてなダイアリー "Googleを支える技術"もせっかくだからAmazonのリンクを貼っておきます。 Googleを支える技術 ?巨大システムの

    Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記
  • 5日間の処理を1時間に短縮 DWHからHadoop移行で成功事例、欧州広告企業 − @IT

    2010/03/15 大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。 nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サ

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • 1