タグ

Hadoopに関するscrewboundのブックマーク (217)

  • これから Hadoop を学ぶ人向け読書ガイド - 科学と非科学の迷宮

    なんだかんだで Hadoop 周りのも結構増えてきましたので下にまとめました。 抜けてるのもあると思うので(特に和書)、なんかお薦めありましたらコメントください。追加します。 タイプ別お薦め読書コース 短期間で全部読むのは不可能なので、とりあえず簡単にお薦めの読書コースを紹介します。 非技術者(営業や経営者など) 象1章と徹底入門1章だけ読んどけばいいです。余裕があれば象16章(ケーススタディ)。読んでる暇あったらその人件費で技術者にいいPC買ってあげてください。 技術者(共通) 象読まないとかありえないです。 別に全部読む必要ないですが、とりあえず 1-10章ぐらいは目を通してください。 それも時間的に難しいならせめて3章か4章ぐらいまで目を通してください。 可能なら徹底入門と並行して読んでください。書き方の切り口が違う2つの書籍を読むことで理解が深まります。 Hadoop 技術

    これから Hadoop を学ぶ人向け読書ガイド - 科学と非科学の迷宮
  • VMware Pivotal Labs: A Better Way to Build Software | VMware Tanzu

  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 稿では、並列分散で「バッチ処理」を行う方法につい

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得
  • Hadoopは統計の基礎を無視しているのか? - 急がば回れ、選ぶなら近道

    http://ascii.jp/elem/000/000/687/687170/ こういう塩梅になった。これでも一応、最初に上がってきたインタビュー記事を訂正して、この状態という感じです。最初のほうはもっと派手だった。まー、さすがに読み手で不快に感じる人もいるだろうし、とはいえ、話したことをつないでいる部分は確かにあるわけで、はてどうしたものかな・・・と思っているうちにリリースになったというのが実態ですね。 えっと、まず読んで不快に思った方は確実にいらっしゃると思うので、その方たちにはお詫び申し上げます。すんませんでした。 その上で真意を書いておくと・・・ まず、Hadoopは統計の基礎を無視しているのか?という問題ですが、基的にHadoopのBIで飯をっている人は、いわゆる「データ・サイエンティスト」という職種の人たちにあたる方たちで、当然、統計のプロだ。当たり前の話だが、大抵のHa

    Hadoopは統計の基礎を無視しているのか? - 急がば回れ、選ぶなら近道
  • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

    Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

    “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
  • 「tagomorisが騙る はじめてのHadoop」 - たごもりすメモ

    深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。 「初めてのHadoop」ちょっと考えてたが、例えば最初に考えるべきHDFSのblock sizeとかで、でもそれノード数とMR処理データ量の最大/平均サイズと、データ投入時の圧縮、そういうことをちゃんと考えないと決まらないんだよね、そういうことを書いてるがないよね、みたいな 2012-05-08 01:13:11 via TweetDeck 設計 HDFS総容量と処理対象のデータ量について ファイルの形式について (TextFile/SequenceFile/RCFile) データの圧縮について ノードあたりのHDD台数、ディスクの選択 CPUおよびメモリの選択 ノード数 H

  • ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮アマゾン ウェブ サ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 | NAUTILUS

    ホーム>お知らせ>ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮 アマゾン ウェブ サ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮 アマゾン ウェブ サ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 2012年05月07日 PDF版のダウンロードはこちら 株式会社ノーチラス・テクノロジーズ(以下、ノーチラス)は、当社が開発したAsakusa Framework™ (*1) (以下、「Asakusa」)を利用して株式会社アンデルセンサービス(以下、アンデルセンサー

  • Hadoop and Solid State Drives

    Is there a story for the Hadoop Storage Stack (HDFS+HBase) on Solid State Drive (SSD)? This is a question that I have been asked by quite a few people in the last two days, mostly by people at the OpenComputeSummit. This piece discusses the possible use cases of using SSD with Hadoop or HBase. Use Case Currently, there are two primary use cases for HDFS: data warehousing using map-reduce and a key

  • Cloudera | ハイブリッドデータカンパニー

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera | ハイブリッドデータカンパニー
  • サイベース、HadoopやR言語との連携に対応した「Sybase IQ 15.4」

  • VMware が Spring Hadoop を発表

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    VMware が Spring Hadoop を発表
  • Hadoopに興味をもった理由 - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 自分が初めてHadoopの名を聞いたのは、2010年2月。営業の人がお客さんから問い合わせを受けて、何故か僕のところへ聞きに来たのだった。 「はどぅーぷって知ってる?」「知りません」 で、知らないままなのも気持ち悪いのでググってみたところ、最初に目に留まったのがYahoo!JAPANの吉田さんのブログ。 6時間の処理が5分ですと?! なんと約60倍の短縮。 その頃自分が担当していたシステムでは、夜間バッチの遅さが問題になっていた。 8時間の処理が「3時間にならない?」とか言われて、小手先の最適化で多少は速くなるとしても、結局RDBがネックなのでそこまで速くなる訳が無い。 と思っていたところへ、60倍。20台のマシンで処理しているから理屈上は20倍、話半分に聞いて10倍だっ

    Hadoopに興味をもった理由 - ひしだまの変更履歴
  • [第1回]今さら聞けないHadoopの基礎

    OSS(オープンソースソフトウエア)のミドルウエア、「Hadoop」が注目されている。大量のデータ、とりわけログ、テキスト、画像といった非構造化データを取り扱うための高速な情報処理基盤を安価に構築できるからだ。そこで連載ではHadoopを基礎から説明する。 連載は情報システム部門の企画担当者や利用部門のIT活用推進者などが対象。序盤ではHadoopの基やアーキテクチャーを解説。回を追って分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及するほか、2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込んでいく。 ニーズ高まる「ビッグデータ」の基盤 日にとって2011年は「ビッグデータ」元年だったと言ってよいのではないでしょうか。ビッグデータに関わる製品やソリューションが国内外のベンダーから発表となり、多

    [第1回]今さら聞けないHadoopの基礎
  • インサイド MapR (1) (Hadoop アドベントカレンダー 2011 16日目) - nagix

    この記事は Hadoop アドベントカレンダー 2011 の16日目の記事です。 今年の5月にMapR Technologies社から発表された、独自実装のHadoopディストリビューション(以降、単純にMapRと呼びます)ですが、そのユニークな特徴やオープンソース実装のはるか先をいく先進性から、いろいろなところで注目を集めています。ただ、非常に多彩な機能を持ちながら、これどうやって実現しているの、という風に思っている方も多いと思います。私はお仕事MapRの実装を若干詳しく知る立場におりますので、MapRの中身を少し掘り下げてみたいと思います。 MapRはHadoopのどこを改良しているのか MapR TechnologiesはもともとGoogleでGFS、BigTable、MapReduceなどの検索基盤技術を担当していたエンジニア M.C. Srivas 氏などが中心となって3年ほど

    インサイド MapR (1) (Hadoop アドベントカレンダー 2011 16日目) - nagix
  • EMRからCDHへの移行

    Sho Shimauchi @shiumachi 諸々の事情によりEMRからCDHに移行した事例(前編) / Migrating from Elastic MapReduce to a Cloudera’s Distribution including Apache Hadoop Cl… http://htn.to/mkNXYs

    EMRからCDHへの移行
  • Hadoop Advent Calendar 27日目 PigでJOINできない! - White scenery @showyou, hatena

    Hadoop Advent Calendarの27日目を担当します、showyouです。今日は自分とHadoopの1年でも書こうと思いましたが、誰もそんなの読みたいと思わないので軽いTipsでも書きます。 自分は業務や趣味でPigとかHive(を少し)とExcelを(大量に)使っています。個人的に今まで触った感じを書いてみます。主観に基づくので話半分に聞いてください。 Hive まずHiveのいい点を書いておきます。 SQLっぽい言語で、SQLに慣れてれば割と書きやすい 実行時にエラーが出ている場所が(Pigと比べて)わかりやすい partitionで高速化できる クエリがでかいと途中でこける場合がある テーブル作るのが面倒。間違ったテーブル定義すると検索できなくてエラーになることもある Pig 次にHiveに比べるとユーザ数が少なそうですが、PigのHiveと比べた特徴を書いときます ク

    Hadoop Advent Calendar 27日目 PigでJOINできない! - White scenery @showyou, hatena
  • elliptium.net

    elliptium.net 2024 著作権. 不許複製 プライバシーポリシー

  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
  • キー毎に値を集計する方法 - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 irofさんとdaiksyさんがTwitter上でキーブレイク処理について話していました。 (リストを項目ごとに集計する→「ブレイク処理」を定形のアルゴリズムとして習いました→こんな解りにくいの、なんで好んで書くんだろう) キーブレイク処理というのは、データをキーでソートしておいて順番に読み込み、キーが同じ値の間に処理(よくあるのが集計)を続ける。キーが違う値になったら(キーがブレイクしたら)集計値を出力し、集計用変数をクリアしてまた処理を続ける。というアルゴリズムです。 ひとつ前のキーの値を保持しておく変数が必要で、最初はそれをどういう値にしておくか、また、ループを抜けた後に最後のキーの集計値を出力する必要があるか、といった辺りも考慮しないといけないので、慣れないと分か

    キー毎に値を集計する方法 - ひしだまの変更履歴