mogwaingのブックマーク - はてなブックマーク

「Hadoop Summit 2012」に見るツール/事例の最新動向

本連載では、オープンソースの大規模分散処理基盤「Hadoop」を利用している技術者向けに、数回にわたりHadoop運用の最新情報やノウハウ、活用の勘所を紹介する。 HadoopやHadoop周辺ツールは、現在も活発に開発が進んでおり、安定化に加えて高機能・多機能化も図られ、適応領域が広がりつつある。それだけにHadoopユーザーは周辺ツールや利用動向について、常にアンテナを張っておくべきであろう。そこで、今回は2012年6月13日と14日の2日間、米国カリフォルニア州サンノゼにて開催された、Hadoop Summit2012の模様を要約して紹介する。米ヤフー!と、米ホートンワークス（米ヤフー!のHadoop専門チームがスピンアウトしたHadoop専業ベンチャー企業。2011年6月設立）が共催する同イベントは、今回で5回目の開催となる。 2008年の第1回開催時は200人だった参加者が今

mogwaing 2013/05/08

リンク

米アマゾン、DWHクラウド「Amazon Redshift」を開始、1TB当たり年1000ドル以下

米アマゾン・ウェブ・サービス（AWS）は2012年11月28日（現地時間）、データウエアハウス（DWH）のクラウドサービスである「Amazon Redshift」を発表した。同日からプレビュー版のサービスを開始している。カラム型データストレージを採用したMPP（超並列処理）型のDWHで、ペタバイト級のデータが処理できるほか、クエリーには「SQL」などを利用可能。サービスは時間制の従量課金で提供し、1テラバイト当たり年額1000米ドル以下で利用できるとしている。 Amazon Redshiftは、DWH専用のノードをクラスター化して運用する。DWH専用ノードには、15Gバイトのメモリーと2Tバイトのストレージを搭載した「XL（1時間当たり0.85ドル）」と、120Gバイトのメモリーと16Tバイトのストレージを搭載した「8XL（1時間当たり6.8ドル）」の2種類がある。MPP型であるため、DW

mogwaing 2013/05/08

リンク

“1000倍高速”なら世界は変わる

これまでに比べ1000倍速くする──東京大学と日立製作所はビッグデータ活用をにらみ、高速なデータ処理エンジンを2014年3月に向けて研究開発中だ。研究開発は、内閣府の「最先端研究開発支援プログラム」に基づく。共同研究成果を生かし、まず従来比約100倍の性能を持つ処理エンジンを「Hitachi Advanced Data Binder プラットフォーム」として日立が製品化。これにDTSのBIツールを組み合わせた「Hitachi Advanced Data Binder プラットフォーム　BIアプライアンス」は2012年10月、日経BPが主催する「ITpro EXPO AWARD 2012」で大賞を受賞した（関連記事）。研究開発を率いる喜連川氏は、「非順序型実行原理」であくまで1000倍を狙うと力を込める。米国では、科学技術政策局（OSTP）などが、ビッグデータ活用に向けた取り組みを進めてい

mogwaing 2012/11/19

database

リンク

Linux用パフォーマンス評価ツール UnixBench

UnixBenchは、Linux環境で動作するパソコンの処理性能を評価するためのソフトである。CPUの演算性能や、2次元、3次元のグラフィックス性能を、数値として出力する。マルチコアにも対応している。月額1000円以下で利用できる格安VPS（仮想専用サーバー）サービスが登場し、「UnixBench」がにわかに注目を集めている（写真1）。ネット上では、UnixBenchで測定した格安VPSのベンチマークが数多く公開されている。UnixBenchの数値が、格安VPSのコストパフォーマンスを測る指標となっているのである。 UnixBenchは1983年1月、オーストラリアのモナッシュ大学で開発された。名前にあるとおり、当初はUNIXシステムのベンチマークツールとして開発されたようだ。1989年、米国のコンピュータ雑誌「BYTE」が採用したことで広く知られるようになった。Linux向けに移植され

mogwaing 2012/06/20

リンク

Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実

オープンソースの分散バッチ処理ソフト「Apace Hadoop（以下、Hadoop）」の国内コミュニティが主催するイベント「Hadoop Conference Japan 2011 Fall」が2011年9月26日に都内で開催された（写真1）。第3回となる今回は、リクルートが会場提供と運営支援をすることにより、コミュニティ主催のイベントとしては異例の1000人規模の会場を確保（写真2）、月曜日にもかかわらず多くの参加者が午前10時の開始前から来場した。米国のHadoopベンダー3社が基調講演午前中に開催された基調講演では、Hadoopを使ったシステム構築を支援する、ベンダー3社が相次いで登壇。Hadoopの企業情報システムでの利用を前提に、「いかに簡単に構築運用できるか」を主なテーマに据えて、自社製品やサービスの最新動向を語った。最初に登壇したのは、米ClouderaのTodd Li

mogwaing 2011/09/27

hadoop conference japan fall 2011

hadoop

リンク

「New I/Oで高速な入出力」第1回　New I/Oをご存じですか

Java SEには便利な機能が数多くあるのですが，新しい機能ほど活用されていないのではないでしょうか。筆者がJ2SE 1.4であまり使われていないのではないかと感じる機能を挙げてみます。 Assertion New I/O Image I/O Preferences API Logging API AssertionやLogging APIは，JUnitやLog4Jなどのオープンソースのプロダクトで置き換えられるので，それほど使われていなくても不思議ではありません。しかし，JPEGのイメージを出力するために，いまだにcom.sun.image.codec.jpeg.JPEGImageEncoderクラスを使用しているのは腑に落ちません。J2SE 1.3の頃に作られたアプリケーションであればわかりますが，J2SE 1.4以降に作られたアプリケーションではImage I/Oを使うべきではない

mogwaing 2011/08/25

java
nio

リンク

日本オラクルの「HP Oracle Exadata Storage Server」

Smart ScanはExadata Storage Serverで動作する、Exadata Storage Server Softwareの機能の一つ。ストレージ側で検索を終えるので、データベース・サーバーとストレージ間のデータ通信量を最小限に抑えることができる。通常の全件検索では、データベース・ソフトが全件のデータをストレージから読み込む。この時間を短縮する。データベース・サーバーとストレージ間の通信速度も向上させた。14ギガバイト/秒のInfini Bandを使うことで、ストレージへのアクセス速度を向上させた。さらに複数の検索処理を並列的に実行できるようにディスクを配置する、超並列アーキテクチャを採用。Exadata Storage Serverに搭載した12基のディスクドライブに、検索処理を分散することで高速化を図る。どのようなシステムでも、データ容量が増えれば検索速度は遅

mogwaing 2011/08/07

HP Oracle Exadata Storage Server

リンク

第2回 TCP/IP高速化：大量データをまとめて送信

高速化技術を理解するには，基本となるもともとのTCP/IP技術を押さえておく必要がある。TCP/IPのスループットは理論上，「1パケットで受信できるデータ量（RWIN）÷1パケットの受信が完了するまでの遅延時間（RTT）」で求められる。LinuxやWindows 2000 SP3以降の主要なOSは，TCP仕様の最大値64Kバイト（512kビット）をRWINとして設定する。RTTが20ミリ秒だとすると，スループットは最大約25Mビット/秒となる。この環境で100Mビット/秒の帯域を占有できるとすれば，約25Mビット/秒では遅い。つまり，もともとのTCP/IPでは力不足というわけだ。その最大の理由は，TCP通信の「フロー制御」と「輻輳制御」の仕組みにある。大量データをまとめて送信フロー制御から説明しよう。これは確実にデータを送信する機構のことで，TCP通信の基本である。TCPは，送信デー

mogwaing 2011/07/04

「大容量初期ウインドウ」（RFC3390）や「ウインドウ・スケーリング・オプション」（RFC1323）

tcp

リンク

第1回　分散処理を隠蔽し、大規模開発を可能に

筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス（

mogwaing 2011/03/28

リンク

【初級】知っておきたいストレージの基礎　第2回　HDDの内部構造とスペックの読み方

【初級】知っておきたいストレージの基礎　第2回　HDDの内部構造とスペックの読み方容量，入出力性能，信頼性でディスク構成を最適化するここ5年間で容量単価が10分の1～20分の1に下がったハードディスク・ドライブ（HDD）は，従来と比べて利用範囲が大きく広がった。そのため，格納するデータの用途やライフサイクルに合わせて，HDDの容量，性能，信頼性，コストを最適化することが求められている。これらの仕様を正しく読み解くために，HDDの内部をのぞいてみよう。ハードディスク・ドライブ（HDD）は，現在，市場で最も利用されているストレージの代表格である。最近の劇的な低価格化により，HDDはバックアップ・メディアとしても利用されるなど，その用途は多岐にわたっている。 HDDといっても様々な種類があり，入出力性能を重視したハイエンド・モデルから大容量・低価格モデルまで，目的・用途に合わせて選ぶことが

mogwaing 2010/10/20

hdd

リンク

Part4　IOPSを理解する

ディスク単体の性能を，1秒当たりに処理できるI/O数で示したものが「IOPS」である。DBサーバーなど頻ぱんにディスクにアクセスする用途では，IOPSが高いディスクほど性能が良いデータ転送時間には，ディスクから磁気ヘッドがデータを読み書きする平均メディア転送速度やインタフェースの転送速度，ドライブの信号処理とデータ転送を制御するCPUの処理時間などが加味される。実は，これらの値は公開されていないため，正確なデータ転送時間は分からない。ただし，4Kバイトや16Kバイトなど，OSの読み書き単位程度の大きさであれば，数10マイクロ秒から長くても1ミリ秒程度であり，誤差の範囲である。仮に，4Kバイトのデータを書き込むために必要なデータ転送時間を1ミリ秒とする。平均アクセス時間6ミリ秒のディスクにデータを4Kバイト単位で書き込むとする。このディスクのIOPSは，「1/（6ミリ秒+1ミリ秒）=1

mogwaing 2010/10/13

disk
iops

リンク

第4回　動的に仮想マシンを移動し可用性を向上

1台の物理的なハードウエアに複数のサーバーを集約する場合を考えてみよう。負荷のかかるサーバーには多くリソースを割り当て，負荷の低いサーバーに割り当てるリソースは少なくしたい。そこでここでは，Xen3.0.2-2を使用し，Xenのドメインに対するCPUとメモリー・リソースの割り当て方法と，あるハードウエアで動作している仮想マシンを，稼働させたままほかのハードウエアに移動させる「ライブ・マイグレーション」機能を紹介する。複数のCPUを割り当てられる Xenは，バージョン3.0からSMP（対象型マルチプロセッシング）に対応し，各ドメインに複数のCPUを割り当てられるようになった。従って，高いパフォーマンスが必要なドメインには多くのCPUリソースを割り当て，パフォーマンスをそれほど必要としないドメインには少なく割り当てることが可能である。 Xenは，ドメインが起動すると，仮想CPUを定義する。そ

mogwaing 2010/09/20

リンク

「シン・プロビジョニング」というストレージの新常識

「シン・プロビジョニング」というストレージの新常識ストレージの稼働率を一気に高め，コスト削減と省電力に貢献ストレージは「仮想化」と親和性が高い。サーバー機などが個々のコンピュータとして扱われてきたのとは異なり，ストレージはそもそもがコンピュータから「論理的なビュー」として扱われてきた。現実の製品実装において，ストレージとはディスク・ドライブの集合体であり，ユーザーやOS/アプリケーションから見たストレージ領域（ボリューム容量）は，「使っているディスク・ドライブは何か？」「そのディスク・ドライブの中の，どの記憶領域を使っているのか？」といった物理的な構成とは独立している。このようにストレージは，歴史的に見て古くから「論理ビュー」と「物理実装」を分離する仮想化の考え方を採用してきた製品分野である。物理実装はブラックボックスであり，論理ビュー，すなわちボリュームだけを見ていれば，それでよか

mogwaing 2010/08/04

thin provisioning

リンク

Linuxチューニング ---目次：ITpro

第1部は，日経Linux2002年4月号の特集1「Linuxを高速化するチューニング・テクニック大全」，第2部は2003年4月号特集1「チューニング・テクニック完全ガイド」の再掲です。記事は執筆時の情報に基づいており，現在では異なる場合もあります。

mogwaing 2010/02/06

リンク

第3部第1回　パラメータ変更でカーネル・チューニング

Linuxカーネルは，CPUやメモリー，ディスク，ネットワークなどのさまざまなデバイスを管理・制御しています。カーネルがそれらを扱う際の設定をうまく変更すれば，各部分の性能を容易に向上できます。いくつかチューニングのキーとなるポイントを具体的に紹介します。 Linuxに精通した人なら「カーネル・チューニング」といえば，カーネル・コンパイル時の各種設定を書き換え，カーネルを再構築するといった方法を考えることでしょう。確かに，カーネルにはCPUやメモリー，I/O，ネットワーク，各種周辺デバイスに関する100以上の設定が，コンパイル時に用意されています。ただカーネルの設定を書き換えて再構築しても飛躍的に性能を向上させることは難しいといえます。一般のLinuxディストリビューションに含まれるカーネルは，デスクトップやサーバーなどのさまざまな環境で最適に動作するように構築されているからです。実は

mogwaing 2010/02/06

リンク

Ｍ／Ｍ／１ | 日経 xTECH（クロステック）

1台のネットワーク・プリンタに複数の要求が並んで順番を待っています。このとき，要求を送信してから印刷が完了するまでの時間は「（プリンタが使用可能になるのを）待っている時間」，「プリンタを使用している時間」，「その他の時間（通信時間など）」の合計になります。ここで待っている時間と，使用している時間，および要求が到着する間隔に着目して，これらの関係を理論式で推測していくのが待ち行列問題です。今回は最も基本的なＭ／Ｍ／１のモデルを見てみることにしましょう。Ｍ／Ｍ／１というのはケンドールの記法で表記された待ち行列のモデルで，以下の三つの条件が成り立っている状態を指します。 (1)サービス要求の到着間隔がランダム（ポアゾン分布に従う） (2)窓口を使用する時間は要求ごとにランダム（指数分布に従う） (3)待ち行列のサービス窓口は1個また，窓口数の後ろに行列の長さの制限を記入する場合もありますが，

mogwaing 2009/11/04

mm1
math

リンク

基礎から理解するデータベースのしくみ（6）

データベースのインデックス＊1の作成やパラメータの設定は，システムのパフォーマンスを大きく左右します。加えて，メンテナンスの手間にも影響します。「面倒な設定作業はほとんどツールに任せている」なんていう人もいるかもしれませんが，こうした作業をきちんとやることは実用的なシステムを作るには避けて通れません。では，最適なインデックス作成やパラメータ設定ができるようになるにはどうすればよいのでしょうか。 Part2では，リレーショナル・データベース管理システム（RDBMS）がデータをディスクに格納するやり方やアクセス方法について解説します。さらに，高速な検索が可能なBツリー・インデックスやハッシュ・インデックスのしくみなどを学んでいきましょう。データベースには3種類のファイルがある最初に，データベースを構成するファイルについて簡単に触れておきましょう。データベースは大きく分けて，「データ・ファイ

mogwaing 2009/09/15

よくまとまってる

database

リンク

ライター矢沢の著作日記[12] 夢の印税生活

「矢沢さん、ライターやってるんですって。いいなぁ。夢の印税生活じゃないですか！」と言う友人が多くいます。これは、誤解です。コンピュータ関連のライターは、残念ながら夢の印税生活と呼ばれるほど儲かりません。夢の印税生活は、「夢」なのです。今回は、ライターの収入についてお話させていただきます。これからライターをやってみたいと思っている人に、少しでも参考になる情報を提供できれば幸いです。ライターって儲かるの？ライターでどのくらいの収入が得られるかは、人によって様々でしょう。私の経験の範囲では、コンピュータ雑誌やWeb記事の原稿料は、1ページあたり1万円～3万円です。コンピュータ書の印税は、定価の8％～12％程度です。原稿料を2万円/ページ、印税を10％として、年間の収入を計算してみましょう。【雑誌やWeb記事】 10ページ/月×2万円/ページ×12ヶ月/年＝240万円/年【書籍】 2,00

mogwaing 2009/09/14

リンク

「Webからの脅威」を攻略せよ――セッション管理編

MS・Google・AWS全て試す中外製薬の生成AI活用、全社横断と研究特化で使い分け 2024.03.13

mogwaing 2009/06/10

web
security

リンク

東大の喜連川優氏が米ACMのCodd賞を日本人として初受賞

米ACM（コンピュータ学会）のSIGMOD（データ・マネジメント研究会）は2009年6月6日（現地時間），2009年のEdgar F. Codd Innovations Award（Codd革新賞）に東京大学生産技術研究所の喜連川優教授を選出したと発表した。同賞はリレーショナル・データベースの概念を考案したCodd氏の名を冠した賞で，日本人としては初めての受賞となる。喜連川氏は大規模データ処理を専門としており，文部科学省の「情報爆発」プロジェクト代表や，経済産業省の「情報大航海」プロジェクト戦略会議委員長を務める。 Codd革新賞受賞の対象となった業績は，高性能データベース技術への貢献である。具体的にはハッシュ－ジョイン・アルゴリズムの開発への貢献など。またハッシュ・ベースのアルゴリズムに基づいた共有メモリー・アーキテクチャによるファンクショナル・ディスク・システムを開発。1990年代に

mogwaing 2009/06/09

すごすぎる

database

リンク

はてなブックマーク

タグ

ブックマーク / xtech.nikkei.com (65)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス