[B! Hadoop] justoneplanetのブックマーク

justoneplanet id:justoneplanet

Hadoopに関するjustoneplanetのブックマーク (50)

EMRでHadoop Streamingジョブを実行する | DevelopersIO
みなさま、Hadoop Streamingという機能はご存知でしょうか。Hadoopが開発された当初から存在する機能でいわゆるMapReduceをJavaではなくてPythonやRubyで実装できるという機能です。EMRにおいてもストリーミングでのデータ処理という名前で利用できるようになっています。いまならSparkを覚えた方がいいのかもしれませんが、S3に存在するファイルに対してちょっとしたフィルタリング処理を行ったりするには便利だったりするので紹介したいと思います。前提 emr-5.5.0 でアプリケーションは Hadoop のみハードウェア構成は m1.medium を 1 台（検証用なのでマスターノードのみ）東京リージョン言語はPython 2.7.12 EMRクラスタの作成まずはEMRクラスタを作成します。AWS CLIを利用する場合は以下のようなコマンドになります。S
justoneplanet 2021/07/10
EMR

Hadoop
リンク
Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016
Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016 分散処理基盤として普及をはじめたHadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」が2月8日に都内で開催されました。基調講演として行われたセッションの1つ「Apache Hadoopの現在と未来」では、Hadoopコミッタの小沢健史と鯵坂明氏が登壇。YARNとHDFSにフォーカスし、現状と将来像を紹介しています。セッションの内容をダイジェストで紹介します。 YARNはCPUだけでなくGPGPUやFPGAなどにも対応していくだろう Hadoopコミッタの小沢健史氏（写真中央）。 Hadoopには3つコンポーネントがあって、1つはMapRe
justoneplanet 2016/02/09
hadoop
リンク
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ
justoneplanet 2012/11/12
facebook

corona

hadoop

mapreduce
リンク
試すのが難しい―機械学習の常識はMahoutで変わる
ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品
justoneplanet 2012/03/11
mahout

機械学習

hadoop

bigdata

Mahout

クラスタリング
リンク
第3回　レコメンドシステム－協調フィルタリングのHadoopへの実装［前編］ | gihyo.jp
今回はいよいよHadoopを用いたレコメンドシステムについて説明します。今回のポイントは以下の通りです。処理をMapReduceフレームワークへ変換することで、分散処理のメリットを享受アウトプットからkeyについて着目し、処理ロジックを考える簡単な処理でも数段階のMapReduce処理を踏む場合がある前回までのおさらい分散処理の基本的な考え方は、大規模データあるいは処理する問題を小さく、かつ、互いに独立した単位に分割して並列に処理することで、各処理単位の出力を結合することで最終的な結果を得るというものです。Hadoopは数ある分散処理のフレームワークの実装のひとつで、システムレベルの詳細の多くを意識せず、処理ロジックに集中して設計できる特徴があります。 Hadoopで処理するため、前回紹介したユーザの映画評価の履歴をHDFSのディレクトリにコピーすると、HDFSは履歴を各ノード
justoneplanet 2011/12/31
hadoop

MapReduce

データマイニング
リンク
Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム：テキストマイニングで始める実践Hadoop活用（最終回）（1/3 ページ） Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上前回の「実践！「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと
justoneplanet 2011/10/03
hadoop

テキストマイニング

algorithm
リンク
「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ
米Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c
justoneplanet 2011/09/17
hadoop

yahoo

mapreduce
リンク
次世代Hadoopの特徴は、MapReduce 2とGiraph - ＠IT
次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来有限会社オングス後藤大地 2011/9/15 ■ 増え続けるHadoop活用企業大規模データの分析に、Javaのフレームワーク「Apache Hadoop」（以下、Hadoop）を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル
justoneplanet 2011/09/16
hadoop

MapReduce

cloudera

インタビュー
リンク
GitHub - dzuelke/HadooPHP: A framework for writing Hadoop Streaming jobs in PHP
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
justoneplanet 2011/09/10
php

hadoop
リンク
【CEDEC 2011】Mobageのデータによるゲーム改善サイクルの一端を見た / GameBusiness.jp
ソーシャルゲームにおいてはアクセスログなどのデータマイニングを通じてゲームを絶えず改善するPDCAサイクルを回しているというのはつとに知られていますが、その実情は余り語られる事はありません。しかしCEDEC 2011のディー・エヌ・エーのスポンサーセッションで同社の山田憲晋氏が「Mobageの大規模分析基盤」と題してその一端を明らかにしました。もはやMobageの紹介は不要でしょうが、Mobageとはモバイル(フィーチャーフォン、スマートフォン)を中心に展開するソーシャルネットワーキングサイト。中でもゲームに注力しており、オープン化後の積極施策もあり、会員数は3000万人近くまで拡大しています。ページビューも大ヒットした『怪盗ロワイヤル』を期に急拡大。これらの膨大なユーザーデータを適切に解析して更なる成長に繋げることが山田氏らの分析チームの役割です。 ■Mobageの開発体制 Mobag
justoneplanet 2011/09/07
hadoop

dena
リンク
『【研究課題レポート抜粋】Apache Mahout を用いたレコメンデーションエンジンの検討』
※このエントリは、社員のTossyさんによって作成された第5回研究課題レポートからの抜粋です。はじめに近年、機械学習が非常に注目を集めている。機械学習を用いることによって、データから有用な規則、ルール、知識表現、判断基準などを抽出することができる。機械学習を用いた例として、レコメンデーション、クラスタリング、分類、市場予測、評判分析、情報抽出、文字認識、ロボットなどが挙げられる。また、アメーバを含むインターネットサービスの普及により、解析対象データが急激に増加している。解析アルゴリズムは最低でも線形の計算量が必要だが、それでも昨今のデータ増加量が上回っている。世界で作成されたデータ量は、2009 年時点で0.8ZB にもなっており、2020 年には35ZB にも膨れ上がると予想されている(Degital Universe 2010)。このことにより、機械学習処理の並列分散は今後
justoneplanet 2011/09/04
apache

mahout

hadoop

機械学習
リンク
第4回　ログ解析で利用できるHadoop | gihyo.jp
Hadoopの出現で「ログ」がどのように活用できるようになったのでしょうか。従来から「ログ」を分析すれば有益な情報が得られる可能性があることは知られていました。しかし、大量のログを格納可能なストレージシステムや、それらを現実的な時間内で処理することができるプロダクトが存在しなかったのです。しかし、Hadoopが利用できる今、我々はログを自由に分析し、活用する自由を手に入れました。今回は次の3つの題材を用いて、ログから何が分析できるのか、分析した情報をどのように活用できるのかを見てまいりましょう。ログから「行動パターン」を見つけるログから「おすすめ」を見つけるログから「広告効果」を見つける 1．ログから「行動パターン」を見つける～VISAによるカードの不正利用検知～ログを見れば、誰かが勝手にあなたのカードを使っていないかがわかります。世界最大規模のクレジットカード決済ネットワークを
justoneplanet 2011/07/07
Hadoop

hadoop

ログ解析
リンク
"Hbase at Facebook" に行ってきた - たごもりすメモ
名称表記が揺れてて微妙だけど Hbase at FaceBook on Zusaar このイベントに行ってきた。Facebookの人は "HBase Tokyo meetup" と認識していたようだ。内容のまとめはやらないので、以下の各ページなどをご覧になると良いのではないでしょうか。 Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HB… Hbase at FaceBookのまとめ - Togetterまとめ FacebookがHBaseを大規模リアルタイム処理に利用している理由（前編）－ Publickey FacebookがHBaseを大規模リアルタイム処理に利用している理由（後編）－ Publickey セッションの内容と自分が考えたことと人としゃべったことをいっしょくたにここに書いておく。
justoneplanet 2011/07/04
hadoop

HBase

facebook

hBase
リンク
FacebookがHBaseを大規模リアルタイム処理に利用している理由（前編）
Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか？ 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ（Jonathan Gray）氏による解説が行われました。解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか？ MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb
justoneplanet 2011/07/04
facebook

hadoop
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
justoneplanet 2011/06/22
hadoop

テキストマイニング

自然言語処理

Hadoop
リンク
Hadoopフレームワーク「Asakusa」がOSSで公開－＠IT
2011/03/31 ウルシステムズは3月31日、基幹業務システムのバッチを高速処理するためのフレームワーク「Asakusa Framework」の正式版をオープンソースとして公開した（発表文、GitHubのレポジトリ）。Hadoop上に基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装したもの。HadoopはJavaベースのオープンソース分散処理技術として、すでに広く利用されている一方、業務処理への適用では、導入の難しさから利用が進んでいなかった。Asakusaを使うことで、Hadoopに詳しくないエンジニアでも簡単にシステム開発ができるという。 Asakusaは、MapReduceのDSLをコンパイルする「Ashigel Compiler」、Hadoopのデータフォーマットに合わせたデータモデルを生成するジェネレータ、統合テストスイートの3つのコンポーネントからなる。Ashi
justoneplanet 2011/04/02
Hadoop

asakusa

フレームワーク
リンク
ビッグデータにこれから起きること11の予想
ビッグデータの登場とその分析は、いまのIT業界の大きなトピックの1つです。Hadoopのような大規模分散ソフトウェアに注目が集まり、オラクルのExadataなどデータウェアハウス専用ハードウェアが次々に登場し、またIBMによるNetezzaの買収、EMCによるGreenplumの買収、ヒューレット・パッカードによるVerticaの買収などはすべて、ビッグデータをめぐる動きだといってよいでしょう。 11 Big-Data Analytics Predictions for 2011 -- TDWI - The Data Warehousing Institute そのビッグデータの分野で2011年になにが起きるのか？ Ingres CorporationのシニアバイスプレジデントKetan Karia氏がThe Data Warehouse Instituteに掲載された記事「11 Big-
justoneplanet 2011/04/01
hadoop

ビッグデータ

data

分析

トレンド
リンク
Apache Mahout - Overview
For Creating Scala ble Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe
justoneplanet 2011/03/30
hadoop

機械学習

レコメンド

オープンソース
リンク
IT news, careers, business technology, reviews
Miro boosts security for its visual collaboration app The Enterprise Guard suite will let business users automatically identify and classify sensitive data and gives IT admins more control over encryption.
justoneplanet 2011/03/28
hadoop

分散コンピューティン
リンク
第6回　bootstrapを設定するには | gihyo.jp
Amazon Elastic Mapreduce（EMR）では、起動時にHadoopのオプションなどを設定できるbootstrapというものが用意されています。うまく利用すれば、細かくHadoopのチューニングをしたり、Jobが起動する前に前処理を行ったりすることができます。今回は、Webコンソール、Amazon Elastic MapReduce Ruby Client、Java SDKのそれぞれでbootstrapを設定する方法をご紹介します。 Webコンソールでbootstrapを設定するにはまずWebコンソールを使用して設定する方法を見ていきましょう。Webコンソールからは「Job作成」画面の「BOOTSTRAP ACTIONS」で設定します。この画面で「Configure your Bootstrap Actions」を選択しましょう。図1のような画面になります。図1　「⁠
justoneplanet 2011/02/19
amazon

hadoop

MapReduce

大規模計算
リンク
1 2 3 次のページ