タグ

Hadoopとdevに関するnobusueのブックマーク (30)

  • IT news, careers, business technology, reviews

    Will OpenAI’s enterprise chatbot put a big hurt on Microsoft?

    IT news, careers, business technology, reviews
  • 第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp

    今回はいよいよHadoopを用いたレコメンドシステムについて説明します。 今回のポイントは以下の通りです。 処理をMapReduceフレームワークへ変換することで、分散処理のメリットを享受 アウトプットからkeyについて着目し、処理ロジックを考える 簡単な処理でも数段階のMapReduce処理を踏む場合がある 前回までのおさらい 分散処理の基的な考え方は、大規模データあるいは処理する問題を小さく、かつ、互いに独立した単位に分割して並列に処理することで、各処理単位の出力を結合することで最終的な結果を得るというものです。Hadoopは数ある分散処理のフレームワークの実装のひとつで、システムレベルの詳細の多くを意識せず、処理ロジックに集中して設計できる特徴があります。 Hadoopで処理するため、前回紹介したユーザの映画評価の履歴をHDFSのディレクトリにコピーすると、HDFSは履歴を各ノード

    第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp
  • Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道

    オープン系の歴史は、基的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux? おもちゃですね。Java? 飲めるの?Object指向? 品質高いの? ・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。Javaでの開発は普通になりました。Object指向以外の開発はまぁ普通にないですね。・・・しかし、残念ながら基幹バッチは未だに汎用機です。汎用機は未だに現役であり、基幹処理の根っこは、いまだ汎用機で動いています。信頼性は突出しているし、パフォーマンスもバッチ処理に関しては依然として最強だと言えるでしょう。新人COBOLな人のバッチが、ハイパーなOracle使いのSQLバッチを軽く凌駕する事は、まだ普通にあります。・・・なぜか? 多重度が違いすぎますね。 汎用機はハードウェアからOSレベルまですべて、多重度が上がる事を前提に処

    Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道
  • リアルタイムに近づくバッチ処理、大容量・高速・安価が身近に

    今回取り上げた分散バッチ処理はいずれも、トランザクション処理システムが管理するデータをテキストデータなどとして複製してから処理を行う。データウエアハウス(DWH)よりも、導入コストや開発コストが安価だ 同社は2009年10月、当日の売り上げを店舗別、商品別に分析するために使用していたデータウエアハウス(DWH)ソフトを廃棄した。売り上げ分析をやめたわけではない。DWHを、「テキストファイルを使ったバッチ処理」に置き換えたのだ。 現在同社は、POSレジから集めた売り上げデータをテキストとして保存し、1時間ごとにバッチ処理を行って、店舗別、商品別の売上高を集計する。非常に古典的なバッチ処理に見えるが、処理時間は大幅に短縮した。 同社は全国に70店舗を展開し、合計3万アイテムの商品を扱う。その3万アイテムすべてに対して、売り上げ個数や粗利益、値引き消化率(値引きをして売れた商品の比率)、廃棄率、

    リアルタイムに近づくバッチ処理、大容量・高速・安価が身近に
    nobusue
    nobusue 2012/01/24
    ユニケージ開発手法の適用例
  • Charming Python: Functional programming in Python, Part 3

  • Hadoopがバージョン1.0へ。2.0、3.0の議論も進む

    大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。 Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。 今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。

    Hadoopがバージョン1.0へ。2.0、3.0の議論も進む
    nobusue
    nobusue 2012/01/08
    1.0=0.20系の安定バージョンということね。
  • Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

    Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

    Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary
  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実

    オープンソースの分散バッチ処理ソフト「Apace Hadoop(以下、Hadoop)」の国内コミュニティが主催するイベント「Hadoop Conference Japan 2011 Fall」が2011年9月26日に都内で開催された(写真1)。第3回となる今回は、リクルートが会場提供と運営支援をすることにより、コミュニティ主催のイベントとしては異例の1000人規模の会場を確保(写真2)、月曜日にもかかわらず多くの参加者が午前10時の開始前から来場した。 米国のHadoopベンダー3社が基調講演 午前中に開催された基調講演では、Hadoopを使ったシステム構築を支援する、ベンダー3社が相次いで登壇。Hadoopの企業情報システムでの利用を前提に、「いかに簡単に構築運用できるか」を主なテーマに据えて、自社製品やサービスの最新動向を語った。 最初に登壇したのは、米ClouderaのTodd Li

    Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実
  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
  • 12ノードまでほぼ比例して向上

    スレーブノード数を変化させた場合、100万件のデータの場合はノード数を増加させてもスループットがわずかしか向上しなかったが、1000万件のデータの場合はノード数にほぼ比例してスループットが向上した 12ノードの場合の性能は、処理時間にすると2分5秒である。実際にはこれにインポートなどの処理時間がかかるが、数分で終わるだろう。筆者らが開発に携わったRDBMSの実システムでは、約100万件の仕入データの買掛計上処理に約1時間を要していた。それに比べると100倍近い性能になる。 もちろん、検証環境では「実データより性能が得られやすい分布のデータを使用した」「検証用のプログラムは実システムと比べると処理が簡略化されている」などの違いはあるが、ケタ違いの性能が出たことは確かだ。 また、分散処理システムの中には数ノード程度で性能が頭打ちになるものもあるが、Hadoopは10ノード以上でも性能が向上し、

    12ノードまでほぼ比例して向上
  • 1000万件のバッチを2分で実行

    Hadoop(ハドゥープ)は複数のサーバーでクラスターを構成し、MapReduceという実行環境や、HDFS(Hadoop Distributed File System)という分散ファイルシステムなどによって、効率的な並列分散処理を実現するミドルウエアである。 MapReduceでは、データを整理・抽出するMapタスク、Mapタスクの出力を基にデータを集計するReduceタスクを、クラスターの各ノードで分散処理することで性能を高める。 現状では、Hadoopは主にログ分析やBI(Business Intelligence)に使用され、大量データを分析するための基盤ソフトと理解されることも多いが、それにとどまらず企業の基幹システムを大きく変える可能性を持っている。 Hadoopは分散処理を容易かつ高速に実現するため、割り切った作りになっている。基的に処理中のデータの外部からの更新や複雑な

    1000万件のバッチを2分で実行
  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ
  • 「Jaql」を使ってMapReduceをより簡単に

    Jaql(a query language desired for JSON:JSON用に位置づけられたクエリ言語)は、JSON型式のデータを処理するためのクエリ言語で、Apache HadoopのMapReduceを処理するための実装が存在します。日語では「じゃっくる」と発音します。ジャッカルに似ているため、一部のサイトにはジャッカルの写真が掲載されていました。 もともとはIBMのアルマデン研究所で研究・開発され、オープンソースへ提案されました。原稿執筆時点では、Apache Incubatorプロジェクトになっており、Google Codeのサイトで開発が進められています。 IBMアルマデン研究所のサイト Apache Hadoop用実装のダウンロードサイト 記事執筆時点では、つい先頃リリースされた、Jaql 0.5.1をベースに解説しています。 1. JSONの基礎 JSON(

    「Jaql」を使ってMapReduceをより簡単に
  • 58blog: Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)に参加した際の備忘録

    2011/05/05 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)に参加した際の備忘録 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回) : ATNDに参加した際の備忘録です。 Togetterはこちら。 Togetter - 「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)」 鬼塚さんのお話はHadoop、分散処理、大規模データに限らず、普段我々が触れるデータやシステムにとっても参考となる、データの扱い方についての質的な部分を抽出することが出来たような気がしました。 セミジョインの考え方とか、RDBSQLでも似たようなことをやった記憶があります。 浅海さんのフレームワークの話では、「イベント」の定義について議論が盛り上がりまし

  • Ubuntu10.04でHadoop環境構築(疑似分散編) - osacaz4の日記

    何度も構築しているとたまに忘れてしまうので、備忘録として記載します。 今行っている研究室での導入用教材にも転用。 OSのインストールからHadoopのインストールまで駆け足で解説します。 以下の環境が前提です。(ホストOSや仮想環境は他でも可) ホストOS:Mac OSX(10.6.3) 仮想環境:VMware Fusion3 インストールの流れ Ubuntu10.4LTSインストール VMware Toolsインストール JDK6インストール Hadoop 0.20.2インストール 大まかに上記のような流れ。 Ubuntuのインストール ほとんど悩む事はないでしょう。 VMware仮想マシンを作成し、isoからインストール Ubuntu Desktop語 Remixのダウンロード | Ubuntu Japanese Team 「簡易インストールは選択しない」ことだけ注意 VMwar

    Ubuntu10.04でHadoop環境構築(疑似分散編) - osacaz4の日記
  • 基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する

    ウルシステムズは2011年3月31日、「Asakusa」をオープンソースソフトウエア(OSS)として公開した(関連記事:Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌)。同社はある顧客の基幹バッチシステムをAsakusaで構築している。Hadoopで基幹バッチ処理を行うにあたっての問題をどう解決したのか。なぜOSSとして公開したのか。ウルシステムズ 取締役 神林飛志氏に聞いた。 ハードウエア、ソフトウエア、SIを含めれば1000億円は軽く超えると見ている。特に大きいのは基幹バッチ処理システムだ。BI(ビジネスインテリジェンス)の案件は1件3000万円から1億円くらいだが、基幹バッチ処理の案件は1件1億円以上。 バッチ処理システムは“残ってしまっている”ものが多い。手をつけたくとも、わかる人がいなくなって保守できなくなりつつある。再構築したいというニーズは高い。実際に引き合

    基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する
  • ウルシステムズ、基幹バッチ用Hadoopフレームワーク「Asakusa」をOSSとして公開

    ウルシステムズは2011年3月31日、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」を使って基幹バッチ処理を開発できるソフトウエアフレームワーク「Asakusa Framework」をOSSとして公開した。同社は4月1日付けでHadoopなどクラウド関連技術の導入支援を行う専門組織を設立し、先端技術コンサルティング事業を強化する。 Asakusaは、Hadoopに詳しくないエンジニアでも、同社独自のDSL(ドメイン特化言語)によって、Hadoopを使ったアプリケーションを開発できるというフレームワークである(関連情報:Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌)。同ソフトを開発したウルシステムズは、Asakusaを使用した基幹システム構築を既に始めている。「Asakusaによって、普段は日が当たりづらい基幹系バッチを開発するエンタープライズ

    ウルシステムズ、基幹バッチ用Hadoopフレームワーク「Asakusa」をOSSとして公開
  • 第3回 業務の境界や並列性を見極め処理を分割

    第3回と第4回では、Asakusaを使ったバッチ処理アプリケーションの設計方法について解説する。Asakusaでは、Batch DSLで記述する「バッチ」、Flow DSLで記述する「ジョブフロー」と「フロー部品」、Operator DSLで記述する「演算子」という三つの階層で、アプリケーションを構成する。 なお今回解説する設計技法は、Hadoopへの依存度を極力なくすことを意図している。Hadoopへの依存度が高いと、設計者がHadoopをマスターする必要があり、開発規模を拡大する足かせになるからである。以降は「クラウド時代の非同期処理設計の一般技法」と捉えてもらっても差し支えない。 有向非循環グラフ「DAG」を使って開発する Asakusaでの設計では、DAG(Directed Acyclic Graph)を用いる。DAGは、図1に示したような有向非循環グラフのことである。処理を表す頂

    第3回 業務の境界や並列性を見極め処理を分割