[B! hadoop] tgkのブックマーク

Product tutorials | Cloudera

tgk 2018/10/10

HDPで使えるアカウントとパスワード一覧。あとsshは2222番ポート

hadoop

リンク

What is map side join and reduce side join? Which one is better? - Quora

tgk 2018/10/10

Mapperで両方のテーブルを結合カラムで再配置して、Reducerでそれぞれのノードで結合するのがreduce side join, 片方のテーブル全体をメモリに置いて、Mapperで結合処理してReducerに渡すのがmap side join

hadoop

リンク

What is the best way to shut down Hortonworks sandbox without corrupting it using virtualbox? - Hortonworks

tgk 2018/10/10

HDPのVMの落とし方。1)Ambariでstop all the servivesする 2)sudo shutdown now

hadoop

リンク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

tgk 2017/07/10

「MapReduceの時代が終わった、というのが正しい理解です」

hadoop

リンク

Evernote

tgk 2017/03/29

"Hadoop Has Failed Us"

hadoop

リンク

神林節炸裂！Asakusa Frameworkは「分散」から「並列」へ (1/3)

11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日本市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。ビッグデータは既存のCRM、IoTはPoCレベルノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。イベントの後半で登壇したノーチラ

tgk 2015/12/04

「Asakusa FrameworkはこのRSAを前提にエンジンを再設計する」「並列処理はやりますけど、もはや分散屋ではない」

リンク

Hadoop Conference Japan 2014 #hcj2014 でImpalaがPrestoより19倍速いという話をしてきた - 科学と非科学の迷宮

Evolution of Impala #hcj2014 from Cloudera Japan タイトルとスライドの通りです。 Hadoop Conference Japan を運営された皆様、本当にお疲れさまでした。また、私のセッションに参加して話を聞いていただいた皆様、ありがとうございました。朝のキーノートで「使用しているコンポーネント」で Impala がランクインしていて実は結構驚きました。まだまだ普及していないと思っていましたけど、意外と使われているようでうれしいです。 (後 Hue がランクインしているのにも驚いた) 今回は他のSQLエンジンのセッションの間に挟まれての講演だったので、これは気を抜けないなと思い、結構頑張ってスライドを作りました。やっぱり調べてみると Impala はとても面白くて、機能の細かい部分などを見て新たな発見もたくさんすることができました。 I

tgk 2014/07/24

リンク

Oedo Ruby Conference 04: Ruby会議でSQLの話をするのは間違っているだろうか

「Ruby会議でSQLの話をするのは間違っているだろうか」 @大江戸Ruby会議04, 2014-04-19

tgk 2014/04/30

hadoop

リンク

Clouderaが「SQL-on-Hadoop」のImpala 1.0正式版リリース

Hadoopのディストリビューションベンダとして知られるClouderaは今日、Hadoopのクラスタに対してSQLでの問い合わせを実現するオープンソースソフトウェア「Cloudera Impala」のバージョン1.0を公開しました。製品版は「Cloudera Enterprise RTQ」として販売されます。 Release - Cloudera Ships Impala 1.0: Industry's First Production-Ready SQL-on-Hadoop Solution Clouderaは、Hadoopで構築された大規模な分散データベースに対してSQLで高速に問い合わせが可能になることにより、企業でのデータウェアハウス用途などHadoopでの新たな市場を開拓できるとしています。 MapReduceを使わず独自の分散クエリエンジン Impalaはバッチ処理をベースに

tgk 2013/05/02

「ImpalaはMapReduceは使わず、独自の分散クエリエンジンによってHDFS/HBaseに保存されているデータに対して直接クエリを実行する」「ImpalaはMapReduceのバッチ処理を経由しないため、高速でインタラクティブな動作を実現する」

hadoop

リンク

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

tgk 2012/11/12

「(Hadoopの)ジョブトラッカーはこの両方の仕事(リソース管理/スケジューリング)を適切に扱えない」「負荷がピークに達した時点で、クラスタの利用効率はスケジューリングのオーバーヘッドによって突如下落します」

hadoop

リンク

Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

Hadoopの現実解「バッチ処理」の常識をAsakusaで体得：ビッグデータ処理の常識をJavaで身につける（7）（1/4 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。本稿では、並列分散で「バッチ処理」を行う方法につい

tgk 2012/05/31

hadoop

リンク

“統計の基礎を無視している”Hadoop使いが考えるビッグデータ

Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長神林飛志氏に、その真意を聞いた。 Hadoop＝ビッグデータは大きな誤解ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」（神林氏）という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

tgk 2012/05/10

「ワンショット数千万～1億円くらいだった分析系の案件も、数百万円台まで大きく下がっているのが実情」「これは顧客が分析に出す金がなくなっているのと、一度やったが投資対効果がなかったと判断している証拠」

hadoop

リンク

ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮アマゾンウェブサ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 | NAUTILUS

ホーム>お知らせ>ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮アマゾンウェブサ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮アマゾンウェブサ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 2012年05月07日 PDF版のダウンロードはこちら株式会社ノーチラス・テクノロジーズ(以下、ノーチラス)は、当社が開発したAsakusa Framework™ (*1) (以下、「Asakusa」)を利用して株式会社アンデルセンサービス（以下、アンデルセンサー

tgk 2012/05/07

アンデルセングループ：年商600億円規模

hadoop

リンク

御徒町＠MultiVersionConcurrentClimber(MVCC) on Twitter: "今日のイベントの説明でも、プレゼンで皆さんが「へー」とかいうのは、Hadoopの実態は結局は分散IOだということ。未だに、敢えて言うが”未だに”　「なんで、ビッグデータがRDBMSで処理ができずに、Hadoopで処理ができるのか？」という至極あたりまえの事すら知られていない。"

tgk 2012/02/29

「プレゼンで皆さんが「へー」とかいうのは、Hadoopの実態は結局は分散IOだということ。未だに「なんでビッグデータがRDBMSで処理ができずに、Hadoopで処理ができるのか」という至極あたりまえの事すら知られていない」

hadoop

リンク

Hadoopは汎用機の夢を見るか？ - 急がば回れ、選ぶなら近道

オープン系の歴史は、基本的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux? おもちゃですね。Java? 飲めるの？Object指向? 品質高いの?　・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。Javaでの開発は普通になりました。Object指向以外の開発はまぁ普通にないですね。・・・しかし、残念ながら基幹バッチは未だに汎用機です。汎用機は未だに現役であり、基幹処理の根っこは、いまだ汎用機で動いています。信頼性は突出しているし、パフォーマンスもバッチ処理に関しては依然として最強だと言えるでしょう。新人COBOLな人のバッチが、ハイパーなOracle使いのSQLバッチを軽く凌駕する事は、まだ普通にあります。・・・なぜか？多重度が違いすぎますね。汎用機はハードウェアからOSレベルまですべて、多重度が上がる事を前提に処

tgk 2012/02/27

「汎用機のバッチでとられていた時間を取り戻せるというのは、表面時はまったく業務改革にはなりません/ところが、バッチが極端に短くなるといろいろ余波が出ます/これが静かな業務改革につながることがあります」

hadoop

リンク

United States

The essential office apps for Android Create an optimal Android office app power-pack with these thoroughly researched recommendations.

tgk 2012/01/20

「この技術はデータの前処理のためのものであって、データの解析技術ではないわけです。多くの人がHadoop/MapReduceをデータ解析に用いようとしており、それが結果的にさまざまな苦労や失敗につながっているようです」

hadoop

リンク

ビッグデータのフュージョンに人類未踏の世界がある―東京大学喜連川優氏インタビュー

―「ビッグデータ」という言葉がIT業界の大きなトレンドとなっています。2004年から「情報爆発プロジェクト」を率いてきた喜連川先生の目から見て、現在のビッグデータを取り巻く状況はどのように映るでしょうか。確かに、IT系のバズワードではありますが、大変分かりやすい形容詞と名詞を組み合わせた、非常にシンプルな言葉ですね。他のバズワードと同様に消費されていく言葉の1つかもしれませんが、ようやく時代がこのようなシンプルな表現で情報社会を語れるほど、成熟してきたことの表れかもしれません。 2004年に申請し、2005年からスタートした「情報爆発プロジェクト」では、21 世紀に入り人類が生み出す情報量が急激に増大するようになった現象を「情報爆発」と捉え、情報爆発から派生する多様な課題を自ら明確化すると共に、それらに立ち向かい１つずつそのソリューションを考えて行こうというプロジェクトでした。ですから、

tgk 2011/12/19

cloud
hadoop

リンク

ビッグデータはないけどバッチ処理はある　そんな企業こそHadoopを

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます日立ソリューションズは12月2日、東京・品川で「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。本稿ではそのうち、日立ソリューションズ技術統括本部技術開発本部オープンソース技術開発センタ担当部長吉田行男氏による講演「日立ソリューションズのHadoopへの取り組み〜Asakusa FrameworkとJP1/AJS連携について〜」の概要を紹介する。（関連記事：Hadoop＆Asakusaを基幹業務で使い倒す--ノーチラス神林飛志氏） Hadoopによる「業務バッチ処理」の高速化日立ソリューションズは前身の旧日立ソフ

tgk 2011/12/08

「MapReduce処理はノード数が増えるごとに処理時間が短くなっているが、インポート/エクスポートの処理時間にはほとんど変化がない。ここが今後の改善ポイントになるかもしれない」

hadoop
cloud

リンク

Hadoop実行環境をWindows上に簡単に構築する方法: TBヘッドライン

こんにちは、システム開発部のKTです。今回は、Windows上にHadoopの実行環境を構築するためのお手軽な方法を紹介します。 Hadoopは内部でLinuxコマンドを使用しているため、本格的に使用するためにはLinux環境を準備する必要があります。一応Windows環境へのインストールも可能ですが、その場合は別途Cygwin等を使用する必要があり、いずれにしても個人ベースで行うには環境を整えるまでにある程度の手間がかかってしまいます。そのため、「巷で話題のHadoopにちょっとだけ触れてみたい！」といった比較的軽い気持ちの人達にとっては、なかなか手を出し辛い代物になってしまっているのではないでしょうか。ここではそんな方々のために、Windows環境に簡単簡潔にHadoopの実行環境を構築する手順を紹介します。今回は、VMPlayerとCloudera社が公開しているVMイメージ