タグ

hadoopに関するgakkiyのブックマーク (18)

  • AppEngineでMahoutを使ったレコメンド機能を作ってみた - Orfeon Blog

    Apache Mahoutは様々な機械学習・データマイニング手法を、Hadoopを利用してスケーラブルに取り扱うことができるライブラリなのですが、ちょっとしたレコメンド機能の開発にも手軽に利用することができます。今回は自分用の備忘録も兼ねてAppEngine/Javaでの利用実例を紹介してみたいと思います。 やったこと 先日リリースした漫画読書管理Webサービス「コミックライブラリー(コミ蔵)」 で漫画の関連シリーズのレコメンド機能を作成しました。Amazonとかでよくある商品の関連アイテムのレコメンドです。利用するユースケースやデータ量にもよりますが、意外と簡単にAppEngine上のサービスで推薦機能を使えるようになりました。 実行構成 レコメンド機能の実行の流れは下記の通り。 レコメンド機能を実装したServletをcronで1週間に1回、Backend Instance上で実行。

  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • Mahoutで分散レコメンド(2) - 都元ダイスケ IT-PRESS

    んじゃ、早速Hadoopの疑似分散環境を作ってMahoutを回してみましょう。 HadoopのセットアップとMahoutの入手 まずは利用するHadoopのセットアップ。ここは題じゃないので要点のみ。 Hadoopのバージョンは最新ではなく v0.20.2 を使いましょう。 Apache Download Mirrorsから hadoop-0.20.2.tar.gz をダウンロードします。 各種設定は基的にHadoop擬似分散環境メモ(Hishidama's Hadoop pseudo-distributed Memo)参照 設定後、起動する前に、hadoop namenode -format を忘れずに。最初、これ忘れてハマりました。 start-all.sh でHadoop起動。hadoop fs -ls でHDFSに接続できる事を確認。 ちなみに、Hadoopを落とす時は sto

    Mahoutで分散レコメンド(2) - 都元ダイスケ IT-PRESS
  • Mahoutで分散レコメンド(1) - 都元ダイスケ IT-PRESS

    さて、ちょっと間があきましたが。 前回まで、いったんレコメンドを抜けてクラスタリングの世界をご紹介してみた訳ですが。あまりウケがよさそうじゃないのでレコメンドに戻ってみます。 そんな中でMahoutが一押しであるのは、スケーラビリティの確保に重点が置かれていることです。 機械学習というのは、当然、計算に基づいて結果を出すわけですが、その基礎となるデータが多ければ多いほど、確からしい結果を出してくれます。が、しかし、データが多ければ多いほど、指数的に計算量が増加する傾向があります。 Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS という導入から紹介に入ったレコメンドですが、実はあのアルゴリズムは分散処理できません。できませんったらできません。だってMapReduceパラダイムで書いてないんだもん。 ということで、先日紹介した処理をそのままMapReduce

    Mahoutで分散レコメンド(1) - 都元ダイスケ IT-PRESS
  • 米Cloudera、100%オープンソースの「Apache Hadoop」ベースディストリビューションをリリース | OSDN Magazine

    米Clouderaは4月12日(米国時間)、Hadoopディストリビューション「Cloudera’s Distribution including Apache Hadoop v3(CDH3)」の一般提供を開始した。ClouderaのWebサイトより入手できる。 CDHは、大規模なデータ統合と分散コンピューティングのためのフレームワーク技術「Apache Hadoop」を中核とし、データ管理プラットフォームを統合したディストリビューション。事前検証・統合済みで、TwitterやGrouponなどの企業が導入しているという。ライセンスはApache License。 最新版では、前バージョンで統合していたデータウェアハウスのHive、データフローのPigなどに加え、Flume、Squoop、Hue、Zookeeper、HBaseなどのパッケージを新たに含み、標準APIにより全てのコンポーネン

    米Cloudera、100%オープンソースの「Apache Hadoop」ベースディストリビューションをリリース | OSDN Magazine
  • Hadoopフレームワーク「Asakusa」がOSSで公開 - @IT

    2011/03/31 ウルシステムズは3月31日、基幹業務システムのバッチを高速処理するためのフレームワーク「Asakusa Framework」の正式版をオープンソースとして公開した(発表文、GitHubのレポジトリ)。Hadoop上に基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装したもの。HadoopはJavaベースのオープンソース分散処理技術として、すでに広く利用されている一方、業務処理への適用では、導入の難しさから利用が進んでいなかった。Asakusaを使うことで、Hadoopに詳しくないエンジニアでも簡単にシステム開発ができるという。 Asakusaは、MapReduceのDSLをコンパイルする「Ashigel Compiler」、Hadoopのデータフォーマットに合わせたデータモデルを生成するジェネレータ、統合テストスイートの3つのコンポーネントからなる。Ashi

  • Apache Pig 0.8 リリース | gihyo.jp

    2010年12月17日、Hadoop上のデータを効率良く扱えるスクリプト言語「Pig」のバージョン0.8がリリースされました。Apache PigはHadoopと同じく米Yahoo!が中心となって開発しており、最初はHadoopのサブプロジェクトでしたが2010年9月にApacheトッププロジェクトに昇格しました。同様のアプローチを行うプロダクトとしてFacebookが開発しているHiveがあります。 今回のリリースでいろいろな機能が追加されました。まずPigにカスタムの関数追加が行えるUDFというユーザ定義関数の機能が、今回のバージョンからJavaでなくPythonで記述することが可能になりました。内部でJythonエンジンを呼び出しており、今までJavaで長いコードを書いてJAR(Java Archive)を作らなければならなかったのに対し、非常に記述量が減り気軽にUDFを作成できるよ

    Apache Pig 0.8 リリース | gihyo.jp
  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
    gakkiy
    gakkiy 2011/01/24
    レコメンド処理は商品数の増加による組み合わせの増加が単純な足し算じゃないからほんと大変
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • Hadoopとかに入門してみる 〜 分散技術が出てきた背景 - 都元ダイスケ IT-PRESS

    調べたメモ。色々思い込みや想定に基づいた事も書いてるので、鵜呑みして騙され注意報発令さしとく。 最近分散技術系の話題をよく聞くようになりました。企業内グループ内で使うような業務システムであれば、そこまで無茶な数のアクセスも無いだろうから、数台〜数十台規模のサーバを立てればだいたい事足りたのだろう。例えば、サーバ構成を「Webサーバ - APサーバ - DBサーバ」という3レイヤにして、各サーバを冗長化していく、等の手法でどうにかなった。 ただ、処理リクエスト数の増大や、処理対象データの増大、そして処理ロジックの複雑化に伴って、大量のデータを逐次処理するだけでは処理が追いつかない世界が出てきた。業務システムではなく、サービスプロバイダの世界では、この現象は顕著。 また、Webサーバ層とAPサーバ層の冗長化は比較的簡単だけども、DBサーバ層は大量のステートを持っているレイヤだから冗長化がめんど

    Hadoopとかに入門してみる 〜 分散技術が出てきた背景 - 都元ダイスケ IT-PRESS
  • MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT

    MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術Webサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも

    MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT
  • 第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)

    「Hadoop」は、米Google社が考案した分散データ処理技術MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。 今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa

    第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)
  • 米Yahoo!「Hadoop with Security」「Oozie」をオープンソースで公開 | gihyo.jp

    濃縮還元オレンジニュース 米Yahoo!「Hadoop with Security」「Oozie」をオープンソースで公開 2010年6月30日、米Yahoo! は2つのHadoop関連プロダクトをオープンソースとして公開しました。一つめは「Hadoop with Security」で、その名前のとおりHadoopにセキュリティ機構を組み込んだものです。もう一つは「Oozie」という名前で、Hadoop上で動くワークフローエンジンです。 Hadoop with Securityは、今まで外部からのデータアクセスなどセキュリティにおいて弱い面があったHadoopに対し、ケルベロス認証によるセキュリティ機構を組み込んで権限が与えられていないユーザからのアクセスからデータを保護したり、Audit(監査)ロギングのしくみを設けたりしているものです。 Oozieは、(⁠図1)に示すようなMapRedu

    米Yahoo!「Hadoop with Security」「Oozie」をオープンソースで公開 | gihyo.jp
  • オープンソースのBIツール「Pentaho Open BI Suite」が「Hadoop」対応へ

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます KSKソリューションズは、オープンソースのBIツールである「Pentaho Open BI Suite」が7月から分散処理システム「Hadoop」をサポートすると発表した。 Hadoopは、Apache Software Foundationが開発しているオープンソースの分散処理システム。Pentaho Open BI Suiteは米国のPentahoが開発、販売するオープンソースのBI製品。無償版のほか、エンタープライズ向け機能をもつ有償版の2種類のライセンスを提供しており、すでに1000社以上が導入しているという。国内ではKSKソリューションズが日語化と有償版ライセンスの販売とサポートを行っている。 Pentahoによれば、BIベ

    オープンソースのBIツール「Pentaho Open BI Suite」が「Hadoop」対応へ
  • Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表

    IBMがHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を、先週ローマで開催された同社のイベント「IBM Information On Demand Europe 2010」で発表しました。 InfoSphere BigInsightsは、Apache Hadoopをベースにした分析エンジンの「BigInsights Core」と、その上で大規模データをWebブラウザを利用してスプレッドシートのようなユーザーインターフェイスで分析を行える「BigSheets」の2つから構成されます。 BigSheetsで表計算のようにデータ分析 BigInsights CoreのベースとなっているHadoopは、数百万件など大規模なデータを大量のサーバで分散処理するためのオープンソースのソフトウェアです。Yahoo!やFacebook、日ではCookpad

    Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表
  • PowerPoint プレゼンテーション

    セッション2A-3 COBOLとクラウド 2009年 9月16日 株式会社野村総合研究所 情報技術部 先端技術開発部 久保 順一 〒100-0005 東京都千代田区丸の内1-6-5 丸の内北口ビル コボルコンソーシアムセミナー in XDev 2009 Copyright(C) 2009 Nomura Research Institute, Ltd. All rights reserved. 1 目次 1 クラウド・コンピューティングとは 2 クラウド・コンピューティングのアーキテクチャー 3 ITモダナイゼーション 4 COBOL開発とクラウド 5 まとめ Copyright(C) 2009 Nomura Research Institute, Ltd. All rights reserved. 2 1 クラウド・コンピューティングとは 1.1 次世代のコンピューティング・パラダイム

  • 5日間の処理を1時間に短縮 DWHからHadoop移行で成功事例、欧州広告企業 − @IT

    2010/03/15 大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。 nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サ

  • Getting Started With Sqoop | Cloudera

    Support We're always trying to improve our distribution for Hadoop. If you have trouble finding information you need on the following pages, check out our community support. We also offer commercial support for Hadoop. Sqoop is a tool designed to help users of large data import existing relational databases into their Hadoop clusters. Sqoop uses JDBC to connect to a database, examine each table's

  • 1