daisukebeのブックマーク - はてなブックマーク

Go AbekawaのGo Global！～Doug Cutting編：Hadoop生みの親が、ゼロックスからアップルに転職した理由 (1/3) - ＠IT

「Go AbekawaのGo Global！」連載目次アップルやディズニーなどの外資系企業でマーケティングを担当し、グローバルでのビジネス展開に深い知見を持つ阿部川“Go”久広が、グローバルを股に掛けたキャリアを築いてきたIT業界の先輩にお話を伺うインタビューシリーズ。第15回は「Hadoopの生みの親」Doug Cutting（ダグ・カッティング）氏に登場いただく。 Lucene、Nutch、Apache、そしてHadoopを作った男が考える、エンジニアの喜びとは――。 Doug Cutting（ダグ・カッティング） Hadoopの生みの親、Apache財団のボードメンバー、「Cloudera（クラウデラ）」チーフアーキテクト。オープンソースの検索エンジン「Lucene」「Nutch」プロジェクトの創設者としても名高い。「Excite（エキサイト）」「Apple（アップル）」「ゼロッ

daisukebe 2017/04/11

"エンジニアが世の中に貢献しないといけないことはやまほどある。そしていまがその1番のとき"

リンク

2016年現在、ビッグデータに取り組んでいる日本企業は約67％　ガートナー調査

2016年現在、ビッグデータに取り組んでいる日本企業は約67％　ガートナー調査：「具体的に何をすればいいか」に悩むケースもガートナージャパンは、日本企業のビッグデータへの取り組み状況に関する調査結果を発表した。既にビッグデータに向けた活動を進めている日本企業が約7割に達した一方で、課題も浮き彫りになった。ガートナージャパンは2016年11月8日、日本企業におけるビッグデータの取り組み状況に関する調査結果を発表。2016年2月の調査時点で、「既にビッグデータに向けた活動を進めている」と回答した従業員数500人以上の日本企業の割合は67.2％に上った。日本におけるビッグデータ市場は、同社が示した「テクノロジーのパイプサイクル：2016年版」によると、期待が過度に高まるピークを超え、幻滅期の底に向かう状況にある。当初、ビッグデータへの期待が小さくなることから、取り組みを進める企業の割合

daisukebe 2016/11/11

何をすればいいか？「ビッグデータ嶋内」でググりましょう

リンク

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで：「ビッグデータプロジェクト」の進め方（2）（4/4 ページ）関連記事 Hadoop＋Hive検証環境を構築してみる Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。いまさら聞けないHadoopとテキストマイニング入門 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します欧米の金融業界は今、どうHadoopを活用しているか

daisukebe 2016/10/22

"技術的な課題を解決できたとしても、ビジネス上の課題を解決できているとは限りません"

リンク

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで：「ビッグデータプロジェクト」の進め方（2）（3/4 ページ）関連記事 Hadoop＋Hive検証環境を構築してみる Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。いまさら聞けないHadoopとテキストマイニング入門 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します欧米の金融業界は今、どうHadoopを活用しているか

daisukebe 2016/10/22

"PoCでは、クラウドサービスの利用を推奨"

リンク

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで：「ビッグデータプロジェクト」の進め方（2）（2/4 ページ）関連記事 Hadoop＋Hive検証環境を構築してみる Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。いまさら聞けないHadoopとテキストマイニング入門 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します欧米の金融業界は今、どうHadoopを活用しているか

daisukebe 2016/10/22

"常にビジネス側から見た視点でどのような価値ができるのかを明確にすることを念頭に置いてPoCのゴールを設定"

リンク

「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

「ビッグデータプロジェクトを始めることになった」ら、何をすればいいのか──。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点／ビジネス視点の両面から具体的に理解し、実践していくための導入指南です。前回は、ビッグデータおよびビッグデータ基盤の概要について、そしてその第一歩として「小さくても、確実な成功を収めることが重要である」と説明しました。今回はこの第一歩を踏み出すに当たって必要となる、「PoC」（Proof of Concept：導入前実機検証）を、具体的にどう進めていくかを説明します。なお前回も触れましたが、本連載におけるビッグデータ基盤の説明には、業界標準であるオープンソースの分散処理基盤「Apache Hadoop（以下、Hadoop）」を用いることとします。 PoCとは、新規システムの本番導入に先駆けて、小規模なシステムを試験的に導入し、ビジネスにおける有効性を調査

daisukebe 2016/10/22

"方向性が決まっていないということは、すなわちPoCの結果次第では、その後のプロジェクトの方向性を変更することもあり得る"

リンク

もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら

もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら：「ビッグデータプロジェクト」の進め方（1）（3/3 ページ）ビッグデータ基盤の利点ビッグデータ基盤を導入するメリットは、まず「システム統合が容易になること」が挙げられます。古くなったDWH（データウェアハウス）や、分析／レポート用RDBMS（リレーショナルデータベース管理システム）を更改するのではなく、それらもビッグデータ基盤に統合してしまえば、比較的簡単に大幅なコスト削減を実現できるでしょう。ビッグデータ基盤は、ほとんど活用しないけれど、業務上／コンプライアンス上の目的で捨てられないデータ（コールドデータ）を格納するのにも向いています。例えば、3年以上前のログファイルを全てDWH上に置いておくのは、リソースがもったいないと感じるでしょう。コストが掛かりすぎます。だからといってテープメディアなどに

daisukebe 2016/08/27

"上層部を納得させて予算を獲得するちょっとしたコツがあります。「小さくても、確実な成功を収める」ことです"

リンク

もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら

本連載におけるビッグデータ基盤の説明には、業界標準であるオープンソースの分散処理基盤である「Apache Hadoop（以下、Hadoop。とりわけ、Clouderaが提供する「Cloudera Enterprise」）を用いますが、考え方そのものは基盤に依存することなく共通なので、Hadoopではない他の基盤を使っていても活用できることでしょう。第1回目は、「ビッグデータプロジェクトを開始する前に確認しておくべき、事前知識」編として、ビッグデータおよびビッグデータ基盤の概要とその利点を解説します。 Hadoopについて Hadoopは今から10年前の2006年、オープンソースの検索ライブラリの開発者であった米Cloudera チーフアーキテクトのダグ・カッティング氏が開発した、一般的なIAサーバを並べるだけでスケールアウトできる分散処理基盤です。Hadoopが持つ分散ストレージ／分散フ

daisukebe 2016/08/26

リンク

日本HP、高密度ストレージサーバーでCloudera、Hortonworks、スキャリティと組む理由

日本HP、高密度ストレージサーバーでCloudera、Hortonworks、スキャリティと組む理由：Apollo 4000シリーズを発表日本ヒューレット・パッカード（日本HP）は2015年7月2日、高い集約度を実現したストレージサーバー製品シリーズ「HP Apollo 4000シリーズ」を発表した。スケーラブルなデータ管理基盤ソフトウエアと、集約度の高いストレージサーバーを結び付けるのがポイントだ。日本ヒューレット・パッカード（日本HP）は2015年7月2日、高い集約度を実現したストレージサーバー製品シリーズ「HP Apollo 4000シリーズ」を発表した。スペックなどについては記事の後半で紹介するが、この発表の重要なポイントは、ハードウエアだけでなく、ソリューションとしての容量単価、スペース効率、省電力効果、堅牢性などにあると、同社エンタープライズグループ事業統括 HPサーバー

daisukebe 2015/07/03

お、Clouderaも入ってる

リンク

Hadoopは「難しい・遅い・使えない」？越えられない壁がある理由と打開策を整理する

ビッグデータの申し子のように騒がれた「Hadoop」。以前ほどメディアを騒がせてはおらず、それほど広範囲に普及したようにも思えないものの、いまだ注目されるにふさわしい存在なのは間違いありません。しかし、今日の、あるいはこれからのHadoopがどのように進化しているのかを知れば、Hadoopを諦めていた方々も再度注目しようと思われるのではないでしょうか。そもそもHadoopとは……？の禅問答っぽさ突然ですが、「Hadoopとは何ですか？」と説明を求められたら、皆さんならどう答えますか？ Q.「Hadoopとは何ですか？」 Ans. 複数のサーバーで構成され、MapReduceと呼ばれる仕組みで分散処理を行う環境であることデータも共有ストレージではなく、各サーバーの内蔵ディスクに分散して格納されること HDFSと呼ばれる独自のファイルシステムがあり、データの分散については自動的に行われ

daisukebe 2014/08/22

最初から結論ありきの記事だな

リンク

データセンター技術への投資としては「過去最大」：米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - ＠IT

米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合：データセンター技術への投資としては「過去最大」米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ（Cloudera）への出資を発表した。インテルのHadoopディストリビューションは、クラウデラの「Cloudera's Distribution including Apache Hadoop」（CDH）に統合する予定だ。米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ（Cloudera）への出資と、広範な戦略提携を発表した。インテルは同社の筆頭戦略株主となり、取締役に就任する。クラウデラへの出資は、インテルがデータセンター技術に行う投資としては過去最大級。Hadoopをベースとするクラウ

daisukebe 2014/03/28

す、すごい...

リンク

わが社はいかにしてHadoopクラスター環境を構築したか

モバイル広告という、難度の高いサービスを展開する会社が、データ活用プラットフォームをRDBMSからHadoopに置き替えるまでの実録とハウツーを紹介します。本連載の第1回目ではCyberZの広告効果計測ツールF.O.Xの概要とClouderaManager（以後、CM）の導入経緯についてお話しました。第2回目となる今回はいよいよCM自身の導入手順とCMを使ったHadoopクラスター構築について解説します。ハードウェアの事前設計は、電力・拡張性がキモになったまず、今回使うHadoopエコシステムやクラスター・ハードウェア構成の説明をなるべくオープン紹介しておきましょう。前回解説したようにHadoopディストリビューションはClouderaのCDH（Cloudera Distributed Hadoop）を利用します。CDHのバージョンは4.4.0、CMのバージョンは4.7.3、サーバ

daisukebe 2014/03/25

“今回はいよいよCM自身の導入手順とCMを使ったHadoopクラスター構築について解説します。”

リンク

ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る

ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る：イベントリポートログ、アクセス解析、インフラ運用 2014年1月23日、アイティメディアにて＠ITが新たに企画した「＠特勉」（＠IT 特集連動勉強会）が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」。濃厚なセッションをかいつまんで紹介する。 2014年1月23日、アイティメディアにて＠ITが新たに企画した「＠特勉」（＠IT 特集連動勉強会）が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」として、ログ収集が行える「Fluentd」やオープンソースのHadoopディストリビューション「CDH」の最新情報や、ソーシャルゲームやWebアクセスにおけるデータ解析手法など、＠ITならではの濃いセッションが多数行われた。その様子を2回に分けて紹介しよう。セッション1：Fluentdの次期バージ

daisukebe 2014/03/18

ClouderaさんのCDH5ってよさそうですね。

リンク

スマートフォン広告計測サービスの裏側

スマートフォンアプリ広告の世界は、Web広告よりもユーザートラッキングが難しい世界。この領域のサービス展開を支える環境を現場技術者が解説する。筆者らの所属するCyberZはスマートフォン広告代理店として、スマートフォン向けサービスのマーケティング支援、主に広告運用の代理事業を行っています。広告運用では、弊社が開発したスマートフォン広告効果計測ツール「Force Operation X」（以下「F.O.X」）を使用して運用の効率化を図っています。この「F.O.X」にHadoop管理ツールであるCloudera Managerを導入しています。今回の連載では、この「F.O.X」にHadoop、Cloudera Managerを導入、運用して得られたノウハウを全3回でお伝えしていく予定です。今回は、スマートフォン広告サービスを支える技術要件とCloudera Managerの導入を決めた背

daisukebe 2014/02/04

スマホ広告システム用の Hadoop 環境を Cloudera Managerで構築。先が楽しみな連載

リンク

Amazon Elastic MapReduceで「Impala」が利用可能に

Amazon Elastic MapReduce（EMR）の一部として、オープンソースのHadoop用クエリツール「Impala」が使えるようになった。米Amazon Web Services（AWS）は12月13日、Amazon Elastic MapReduce（EMR）の一部として、オープンソースのHadoop用クエリツール「Impala」が使えるようになったと発表した。 ImpalaはSQLライクなステートメントを使って分散インメモリクエリエンジンを起動し、効率的に大量のデータを高速処理できるHDFS（Hadoop Distributed File System）、HBase向けのデータクエリエンジン。各種フォーマットの非構造化データに対応でき、ユーザー定義の関数もサポート、主要なBusiness Inteligence（BI）ツールと互換性を持つ。 Amazon EMRではIm

daisukebe 2013/12/17

これは興味深い

リンク

Hadoopアプリ開発キット「Cloudera Development kit」を公開

Hadoop環境用のアプリケーション開発やデータ操作を容易にする開発キットをClouderaが公開。「いまどき」のアプリケーション開発者に扱いやすい環境を整備する。米Clouderaは、2013年5月7日、Hadoop用アプリケーション開発キット「Cloudera Development kit（CDK）」をGitHub上で公開した（リンク）。現在のバージョンは0.2.0。ライセンスはApache License V2を採用している。 CDKには、Clouderaの提供するHadoopディストリビューション用のアプリケーション開発を容易にするライブラリ群、ツール類、サンプルコード、ドキュメントが含まれる。現リリースにはHDFSやローカルのファイルシステムに含まれるデータセットに対して「徹底的にシンプルに動作する」APIセットである「CDK Data module」が含まれる。 OSSで

daisukebe 2013/05/13

リンク

Cloudera、Hadoop管理の新製品「Cloudera Navigator」など発表

ClouderaがO'Reilly Strataカンファレンスで、Hadoopシステム内の、データ可視化、コントロールにフォーカスしたツールを発表。シンプルに管理ができるようになるという。米Clouderaは2月26日、米カリフォルニア州で開かれたO'Reilly Strataカンファレンスで、新製品の「Cloudera Navigator」と「Cloudera Enterprise BDR」（Backup and Disaster Recovery）、およびエンド・トゥ・エンドのHadoop管理アプリケーション最新版となる「Cloudera Manager 4.5」を発表した。新ツールのCloudera Navigatorは、Cloudera Managerを補完するアプリケーションとなる。Cloudera Managerがシステム管理にフォーカスしているのに対し、Cloudera

daisukebe 2013/02/27

リンク

カラム指向型データベース（HBase、Hypertable、Cassandra）編

書籍紹介本連載は下記書籍から第5章を基に、＠IT向けに再構成して掲載しています。目次序章ビッグデータの時代第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル第3章アーキテクチャの基本概念と技術第4章 HadoopはNOSQL? 第5章主なNOSQLデータベース製品第6章 NOSQLデータベースの選択基準第7章 NOSQLを使うビジネス本連載は書籍『NOSQLの基礎知識』（リックテレコム刊、ISBN：978-4897978871）で解説されている内容から一部を抜粋し、本連載向けに一部再編集して掲載したものです。書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基本概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基本概念から、各プロダクトの特徴を理解できる内容になっていま

daisukebe 2013/01/12

HDFSについての記載があったので。CDH4以降ではHDFS HAがサポートされているので、HDFSは単一障害点（SPOF）となりません。去年の4月発売の掲載元書籍がそのような記述になってるのでいたしかたないか。。

リンク

＠IT：DNS Tips：digコマンドとは

% dig @ns1.jprs.co.jp jprs.co.jp mx ; <<>> DiG 9.2.1 <<>> @ns1.jprs.co.jp jprs.co.jp mx ;; global options: printcmd ;; Got answer: ;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 59551 ;; flags: qr aa rd ra; QUERY: 1, ANSWER: 2, AUTHORITY: 2, ADDITIONAL: 4 ;; QUESTION SECTION: ;jprs.co.jp. 　　　　　IN 　　　　MX ;; ANSWER SECTION: jprs.co.jp. 　　86400 IN 　　　MX 　　　　20 mx2.jprs.co.jp. jprs.co.jp. 　　86400

daisukebe 2012/10/17

リンク

管理が困難―分散処理の常識はZooKeeperで変わる

管理が困難―分散処理の常識はZooKeeperで変わる：ビッグデータ処理の常識をJavaで身につける（8）（1/3 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載分散処理の課題が「管理」なのは常識複数の計算機上で動作（分散）するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機（クラスタ）で動作する各サーバを「インスタンス」と呼びます。本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」（以下、Z

daisukebe 2012/06/24

わかりやすいな

リンク

はてなブックマーク

タグ

ブックマーク / atmarkit.itmedia.co.jp (49)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス