タグ

hadoopに関するnakackのブックマーク (57)

  • Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開 | OSDN Magazine

    Apache Hadoop環境で利用できる高度なデータウェアハウスシステム「Apache Tajo」開発チームは10月27日、最新版となる「Apache Tajo 0.11.0」をリリースした。 Apache TajoはApache Hadoop環境で動作するリレーショナル・分散データウェアハウス(DWH)ソフトウェア。分散SQLクエリ処理エンジン、低遅延、拡張性のあるアドホッククエリ、オンラインアグリゲーションなどの機能を備え、Hadoop Distributed File System(HDFS)やその他のデータソース上にある大規模なデータセットにアクセスして分散実行を直接制御できる。ETL、ANSI/ISO SQL標準、Hive MetaStoreアクセス、CSV/JSON/RCFile/Paquetなどのファイル/データフォーマットをサポートするのも特徴。同プロジェクトは2014年

    Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開 | OSDN Magazine
  • Giraph - Welcome To Apache Giraph!

    Apache / Giraph / Welcome To Apache Giraph! Last Published: 2020-08-11 | Version: 1.4.0-SNAPSHOT Welcome to Apache Giraph! Apache Giraph is an iterative graph processing system built for high scalability. For example, it is currently used at Facebook to analyze the social graph formed by users and their connections. Giraph originated as the open-source counterpart to Pregel, the graph processing a

  • Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)

    Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「

    Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)
  • 2種類のログ解析基盤 - wyukawa's diary

    僕は仕事では2種類のログ解析基盤を見ています。 1つ目はどちらかというとエンジニアよりの解析基盤でサービス側のエンジニアがShib, ShibUIを通して好きにクエリを投げることができます。ただしtableをcreateしたりdropしたりinsertしたりはできません。selectのみです。データの更新作業は別途cronのhive batchで行います。データはFluentd経由で各サービスのサーバーから収集します。こっちのシステムは古くからあって僕は引き継いだだけなので見ているとはいってもそんなにやることは無いですし、語れることも少ないです。 2つ目は約1年前に僕が一から構築したシステムでプランナーよりのシステムになってます。僕のチーム内のエンジニアだけがrawデータを触ったり更新したりすることができて、プランナーはレポートを通して加工されたデータを見る形になります。なので1つ目のシス

    2種類のログ解析基盤 - wyukawa's diary
  • Cloudera World Tokyo 2014 でImpalaについて発表しました

    こんにちは。ヤフー株式会社の杉山です。Hadoopのベンダーとして知られるCloudera社が主催する Cloudera World Tokyo 2014(以下CWT2014)の午後のセッションで、昨年頃から盛り上がっているHadoopのSQLエンジンImpalaについて発表してきました。 ImpalaはHDFSを直接readする低レイテンシなSQLエンジンで、データの検索や集約を行う処理は従来のMapReduceを使わずに専用に開発されたImpaladが行います。Impalaの発表当初は話題を呼びましたが、最近ではImpala自体の存在は浸透して実際にどのように使っていくか、という話題が増えているように思います。 私たちヤフーでも、この新しいSQLエンジンに強い関心を持っており社内でさまざまな検証を行っています。発表資料の方では、サービス利用を考えた時に気になるレスポンスや並列リクエスト

    Cloudera World Tokyo 2014 でImpalaについて発表しました
  • 「データ解析の伝道師」になるため、私が参考にした書籍5選【鈴木理恵子】 - エンジニアtype | 転職type

    2014.08.14 スキル 業界で名の知れたプログラマーは、今年の上半期に何を学んでいたのか? 「同業者が役に立ったものは、自分にも役に立つはず」という仮説を基に、彼らの学びlogから、2014年上半期の流れを振り返り、今後の動向を予想してみよう! トレジャーデータ株式会社 ソリューションアーキテクト/エバンジェリスト 鈴木理恵子さん(@asyoulike007) 東京女子大学へ入学するも、好きなギター製作の道へ進もうと専門学校へ。卒業後は一転、IT業界に進み、プログラマーとなる。システム開発会社、名刺管理サービス会社を経て、ミクシィに入社。プラットフォーム開発に携わる。2013年12月、トレジャーデータに入社 新しい挑戦でより専門的な知識が必要に 2013年12月、ミクシィからトレジャーデータへ転職した鈴木さん。以来、ビッグデータの活用方法についてのセミナーや講演活動を行う一方、同社の

    「データ解析の伝道師」になるため、私が参考にした書籍5選【鈴木理恵子】 - エンジニアtype | 転職type
  • Hadoop上で動くスケーラブルなRandomForest分類器の開発 | 株式会社サイバーエージェント

    業務経歴: 大手総合電機メーカー、バイオベンチャーを経て、2011年に株式会社サイバーエージェント入社。現在は「Ameba」サービスの分析を担当。 1.はじめに RandomForestという分類器はパラメータ設定の容易さや確率分布を仮定してなくも良い手軽さ等の理由により、様々な分野で多様されている。しかしながら、アナリストがよく利用する分析ソフトウェアR上でのRandomForest実装をそのまま使うと大きなデータを扱うことができないためソーシャルゲームなどの分析には適用できない場合もあった。そのため弊社内で構築されているHadoop環境を使って大規模なデータを扱えるようなRandomForest分類器を開発し、それを利用してAmebaプラットフォームの分析を行った。 2.実装 以下にRandomForestの一般的なアルゴリズムを示し、現状のRとMahoutとの実装での制限を示した上で

  • ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー

    ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー(1/2 ページ) 「Teradata Universe Tokyo 2014」では、TeradataとHadoopを組み合わせ、全社を挙げてビッグデータを分析・活用するヤフーが、その取り組みを紹介した。サービスをより良いものにしていくためには、組織の垣根を越え、横串しでデータを掛け合わせる「統合」がやはりカギを握るという。 業界ではビッグデータやアナリティクスがもてはやされ、やや過熱気味だが、先週都内のホテルで「Teradata Universe Tokyo 2014」を開催したTeradataもそれらを追い風とし、着実な成長を遂げている。 7年前、NCRからスピンオフしたTeradataは、世界の大手金融、通信、流通を中心とした約2600社の顧客を抱え、彼らが保有するデータ資産から

    ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー
  • TechCrunch | Startup and Technology News

    After Apple loosened its App Store guidelines to permit game emulators, the retro game emulator Delta — an app 10 years in the making — hit the top of the…

    TechCrunch | Startup and Technology News
  • TechCrunch | Startup and Technology News

    Welcome back to TechCrunch’s Week in Review — TechCrunch’s newsletter recapping the week’s biggest news. Want it in your inbox every Saturday? Sign up here. Over the past eight years,…

    TechCrunch | Startup and Technology News
  • Hadoopはブラックホール? ビッグデータ分析基盤には「実験室」が欠かせないとTeradata

    米国南部の大都市、テキサス州ダラスはスケールが違う。空の玄関、ダラスフォートワース国際空港からして、JR山手線の内側がすっぽり入るほどの広大さ。飛行機の窓から美しい幾何学的な模様に見えた滑走路やターミナルも次第に高度を下げるとその全容がすっかり分からなくなる。ダウンタウンのホテルから周囲を見回しても、どこまでも緑の地平線が続く。 米国時間の10月21日、Teradataユーザーグループの年次カンファレンス、「Teradata PARTNERS 2013」がダラスコンベンションセンターで開幕した。業種を問わず、膨大かつ多様な「ビッグデータ」の分析・活用が競争優位を築くカギとなる中、「Big D」の愛称を持つダラスをPARTNERSの開催地に選ぶところあたり、Teradataのユーザーグループもなかなか洒落ている。 既に前日の日曜から多くのセッションが始まっているが、格的な開幕を告げるのは、

    Hadoopはブラックホール? ビッグデータ分析基盤には「実験室」が欠かせないとTeradata
  • agilecatcloud.com

    This domain may be for sale!

  • 時系列ビッグデータを手軽に可視化するHadoopアプリケーション、Dunkhead

    Dunkheadとは Dunkheadはタイムスタンプ付きのテキストデータ(アクセスログなど)を手軽に可視化するためのソフトウェアです。Hadoop上で動作するMapReduceアプリケーションであるため、データのサイズが大きい、いわゆるビッグデータの場合にも使用することができます。 Dunkheadは、入力データとなるログをもとに、サーバ監視ツールなどで見られるような、横軸が時間、縦軸が目的の値となる画像を出力します。下記の例はNASAのスペースシャトル、ディスカバリー号のミッションの際に記録された、NASAのウェブサーバのアクセスログをDunkheadで可視化したものです(こちらについて、詳しくは『HadoopとDunkheadでNASAのウェブサーバのアクセスログを解析・可視化する』を参照ください)。 各種サーバのアクセスログなどは、特に活用することなく、いつのまにか大量に溜まってし

    時系列ビッグデータを手軽に可視化するHadoopアプリケーション、Dunkhead
  • Hadoopとの出会いが転機に~トレジャーデータCTO 太田一樹氏インタビュー

    米トレジャーデータのCTOを務める太田一樹氏にインタビューする機会を得た。プログラミングを始めたきっかけや、Hadoopとの出会い、起業についてなど、28歳の若手起業家の素顔に迫った。 米トレジャーデータは、昨今話題となっている“ビッグデータ”の処理基盤を提供していることに加えて、3人の日人が立ち上げたシリコンバレー発のベンチャーとして、注目を集めている。2013年5月20日には、日国内での事業展開を格化すると発表している(関連記事)。 同社が提供する「Treasure Data Platform」は、自社開発技術とHadoop、クラウドサービス(AWS)を組み合わせたビッグデータ処理基盤である。ビッグデータの処理基盤をクラウドで提供している点が特徴だ。大量のセンサデータや購買取引データ、Web閲覧・アプリケーションのログデータなどをクラウド上のデータベースにインポートし、そのデータ

    Hadoopとの出会いが転機に~トレジャーデータCTO 太田一樹氏インタビュー
  • 米Netflix、Amazonクラウド上でのHadoopの運用管理サービス「Genie」を公開 | OSDN Magazine

    Netflixは6月21日、Amazon Web Service(AWS)クラウド上に構築された「Apache Hadoop」を管理するソフトウェア「Genie」をオープンソースで公開した。Hadoopや「Apache Hive」、「Apache Pig」のジョブを実行したりHadoopリソースの管理を行うためのRESTful APIを提供するもので、動的なリソース管理が可能になるという。 Netflixはビデオストリーミングサービスなどを提供する企業。同社はサービスの運用に「Amazon S3」などAWSのクラウドサービスを多用、クラウド上に多数のHadoopを構築しており、それらを管理するために自社で開発したツールをオープンソースで公開している。今回公開されたGenieは「HadoopベースのPaaS」との位置付けで、Netflixがすでに公開している「Karyon」(ブートストラッ

    米Netflix、Amazonクラウド上でのHadoopの運用管理サービス「Genie」を公開 | OSDN Magazine
  • TechCrunch | Startup and Technology News

    Generative AI improvements are increasingly being made through data curation and collection — not architectural — improvements. Big Tech has an advantage.

    TechCrunch | Startup and Technology News
  • ビッグデータとHadoop(1) 改めてビッグデータとは?

    情報抽出とソーシャルメディア 最近よく耳にするビッグデータとは、どのようなものなのでしょうか? 一般に、ビッグデータは、Volume(データの量)、Variety(データの種類)、Velocity(データの生成あるいは更新頻度)の頭文字を取り「3V」と定義されることが多いようです。しかし、これはデータの特徴を述べているだけで、「ビッグデータが話題になっている理由」が分からない方も多いと思います。そもそも昔からデータ自体はあるのに何が違うのでしょうか。 その理由の1つに、「従来よりデータが入手し易く、それらのデータが使い易くなってきた」ことがあります。 データが貯められると、次の関心はその使い方に移ります。つまり、データもお金と同様に、貯められるだけでなく使われる日がやってきます。その使い方の一つに、将来予測があります。データは何らかの事象から生じているので、その事象の原因を突き止めることで

    ビッグデータとHadoop(1) 改めてビッグデータとは?
  • Cloudera

    Cloudera makes bold bet on strategic acquisition of Verta’s Operational AI Platform Read the blog

    Cloudera
  • 米Hortonworks、「Apache Hadoop」べースのディストリビューション「HDP 1.3」をリリース | OSDN Magazine

    米Hortonworksは5月29日、オープンソースのHadoopディストリビューション最新版「Hadoop Data Platform 1.3」をリリースした。SQL風のクエリ言語でHadoopにアクセスできる技術「Apache Hive」との統合を強化し、使い勝手を改善している。 Hortonworks Data Platform(HDP)は「Apache Hadoop」を土台とした企業向けのデータ管理プラットフォーム。大規模なデータの読み込みや処理、分析を行うためのデータ基盤技術で、必要な機能を統合し検証済みのプラットフォームとして提供する。 HortonworksはYahoo!のHadoopチームがスピンオフしたベンチャー企業で、2012年6月に最初の正式版となるHDP 1.0をリリース、その後、同年9月にバージョン1.1を、2013年2月に1.2をリリースしている。 HDP 1.

    米Hortonworks、「Apache Hadoop」べースのディストリビューション「HDP 1.3」をリリース | OSDN Magazine
  • キー・バリュー型データストア「Apache Accumulo 1.5」がリリース | OSDN Magazine

    5月27日、分散型Key-Valueストア「Apache Accumulo 1.5.0」を公開した。Javaで実装されたNoSQLデータベースシステムで、米GoogleのBigTableを設計モデルとして採用、高い柔軟性が特徴となる。 Apache Accumuloは米GoogleのBigTableを設計モデルとして開発された分散型Key-Valueストアで、「Apache Hadoop」や「Apache ZooKeeper」、「Apache Thrift」といったソフトウェアをベースに構築されている。セルレベルでのアクセス管理、柔軟にキー/値のペアを変更できるサーバーサイドのプログラミング機構、高い堅牢性/拡張性/可用性などを特徴とする。米国家安全保障局(NSA)が2008年に開発し、2011年にApache Software Foundation(ASF)に寄贈、2012年3月にASF

    キー・バリュー型データストア「Apache Accumulo 1.5」がリリース | OSDN Magazine