タグ

ブックマーク / atmarkit.itmedia.co.jp (49)

  • Go AbekawaのGo Global!~Doug Cutting編:Hadoop生みの親が、ゼロックスからアップルに転職した理由 (1/3) - @IT

    Go AbekawaのGo Global!」連載目次 アップルやディズニーなどの外資系企業でマーケティングを担当し、グローバルでのビジネス展開に深い知見を持つ阿部川“Go”久広が、グローバルを股に掛けたキャリアを築いてきたIT業界の先輩にお話を伺うインタビューシリーズ。第15回は「Hadoopの生みの親」Doug Cutting(ダグ・カッティング)氏に登場いただく。 Lucene、Nutch、Apache、そしてHadoopを作った男が考える、エンジニアの喜びとは――。 Doug Cutting(ダグ・カッティング) Hadoopの生みの親、Apache財団のボードメンバー、「Cloudera(クラウデラ)」チーフアーキテクト。オープンソースの検索エンジン「Lucene」「Nutch」プロジェクトの創設者としても名高い。 「Excite(エキサイト)」「Apple(アップル)」「ゼロッ

    Go AbekawaのGo Global!~Doug Cutting編:Hadoop生みの親が、ゼロックスからアップルに転職した理由 (1/3) - @IT
    daisukebe
    daisukebe 2017/04/11
    "エンジニアが世の中に貢献しないといけないことはやまほどある。そしていまがその1番のとき"
  • 2016年現在、ビッグデータに取り組んでいる日本企業は約67% ガートナー調査

    2016年現在、ビッグデータに取り組んでいる日企業は約67% ガートナー調査:「具体的に何をすればいいか」に悩むケースも ガートナー ジャパンは、日企業のビッグデータへの取り組み状況に関する調査結果を発表した。既にビッグデータに向けた活動を進めている日企業が約7割に達した一方で、課題も浮き彫りになった。 ガートナー ジャパンは2016年11月8日、日企業におけるビッグデータの取り組み状況に関する調査結果を発表。2016年2月の調査時点で、「既にビッグデータに向けた活動を進めている」と回答した従業員数500人以上の日企業の割合は67.2%に上った。 日におけるビッグデータ市場は、同社が示した「テクノロジーのパイプサイクル:2016年版」によると、期待が過度に高まるピークを超え、幻滅期の底に向かう状況にある。当初、ビッグデータへの期待が小さくなることから、取り組みを進める企業の割合

    2016年現在、ビッグデータに取り組んでいる日本企業は約67% ガートナー調査
    daisukebe
    daisukebe 2016/11/11
    何をすればいいか?「ビッグデータ 嶋内」でググりましょう
  • 「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで:「ビッグデータプロジェクト」の進め方(2)(4/4 ページ) 関連記事 Hadoop+Hive検証環境を構築してみる Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。 いまさら聞けないHadoopとテキストマイニング入門 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します 欧米の金融業界は今、どうHadoopを活用しているか

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで
    daisukebe
    daisukebe 2016/10/22
    "技術的な課題を解決できたとしても、ビジネス上の課題を解決できているとは限りません"
  • 「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで:「ビッグデータプロジェクト」の進め方(2)(3/4 ページ) 関連記事 Hadoop+Hive検証環境を構築してみる Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。 いまさら聞けないHadoopとテキストマイニング入門 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します 欧米の金融業界は今、どうHadoopを活用しているか

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで
    daisukebe
    daisukebe 2016/10/22
    "PoCでは、クラウドサービスの利用を推奨"
  • 「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで:「ビッグデータプロジェクト」の進め方(2)(2/4 ページ) 関連記事 Hadoop+Hive検証環境を構築してみる Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。 いまさら聞けないHadoopとテキストマイニング入門 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します 欧米の金融業界は今、どうHadoopを活用しているか

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで
    daisukebe
    daisukebe 2016/10/22
    "常にビジネス側から見た視点でどのような価値ができるのかを明確にすることを念頭に置いてPoCのゴールを設定"
  • 「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで

    「ビッグデータプロジェクトを始めることになった」ら、何をすればいいのか──。連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から具体的に理解し、実践していくための導入指南です。 前回は、ビッグデータおよびビッグデータ基盤の概要について、そしてその第一歩として「小さくても、確実な成功を収めることが重要である」と説明しました。今回はこの第一歩を踏み出すに当たって必要となる、「PoC」(Proof of Concept:導入前実機検証)を、具体的にどう進めていくかを説明します。なお前回も触れましたが、連載におけるビッグデータ基盤の説明には、業界標準であるオープンソースの分散処理基盤「Apache Hadoop(以下、Hadoop)」を用いることとします。 PoCとは、新規システムの番導入に先駆けて、小規模なシステムを試験的に導入し、ビジネスにおける有効性を調査

    「PoC」の進め方──メンバー選定、環境構築、データ収集と活用、評価まで
    daisukebe
    daisukebe 2016/10/22
    "方向性が決まっていないということは、すなわちPoCの結果次第では、その後のプロジェクトの方向性を変更することもあり得る"
  • もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら

    もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら:「ビッグデータプロジェクト」の進め方(1)(3/3 ページ) ビッグデータ基盤の利点 ビッグデータ基盤を導入するメリットは、まず「システム統合が容易になること」が挙げられます。 古くなったDWH(データウェアハウス)や、分析/レポート用RDBMS(リレーショナルデータベース管理システム)を更改するのではなく、それらもビッグデータ基盤に統合してしまえば、比較的簡単に大幅なコスト削減を実現できるでしょう。 ビッグデータ基盤は、ほとんど活用しないけれど、業務上/コンプライアンス上の目的で捨てられないデータ(コールドデータ)を格納するのにも向いています。例えば、3年以上前のログファイルを全てDWH上に置いておくのは、リソースがもったいないと感じるでしょう。コストが掛かりすぎます。だからといってテープメディアなどに

    もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
    daisukebe
    daisukebe 2016/08/27
    "上層部を納得させて予算を獲得するちょっとしたコツがあります。「小さくても、確実な成功を収める」ことです"
  • もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら

    連載におけるビッグデータ基盤の説明には、業界標準であるオープンソースの分散処理基盤である「Apache Hadoop(以下、Hadoop。とりわけ、Clouderaが提供する「Cloudera Enterprise」)を用いますが、考え方そのものは基盤に依存することなく共通なので、Hadoopではない他の基盤を使っていても活用できることでしょう。 第1回目は、「ビッグデータプロジェクトを開始する前に確認しておくべき、事前知識」編として、ビッグデータおよびビッグデータ基盤の概要とその利点を解説します。 Hadoopについて Hadoopは今から10年前の2006年、オープンソースの検索ライブラリの開発者であった米Cloudera チーフアーキテクトのダグ・カッティング氏が開発した、一般的なIAサーバを並べるだけでスケールアウトできる分散処理基盤です。Hadoopが持つ分散ストレージ/分散フ

    もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
    daisukebe
    daisukebe 2016/08/26
  • 日本HP、高密度ストレージサーバーでCloudera、Hortonworks、スキャリティと組む理由

    HP、高密度ストレージサーバーでCloudera、Hortonworks、スキャリティと組む理由:Apollo 4000シリーズを発表 日ヒューレット・パッカード(日HP)は2015年7月2日、高い集約度を実現したストレージサーバー製品シリーズ「HP Apollo 4000シリーズ」を発表した。スケーラブルなデータ管理基盤ソフトウエアと、集約度の高いストレージサーバーを結び付けるのがポイントだ。 日ヒューレット・パッカード(日HP)は2015年7月2日、高い集約度を実現したストレージサーバー製品シリーズ「HP Apollo 4000シリーズ」を発表した。スペックなどについては記事の後半で紹介するが、この発表の重要なポイントは、ハードウエアだけでなく、ソリューションとしての容量単価、スペース効率、省電力効果、堅牢性などにあると、同社 エンタープライズグループ事業統括 HPサーバー

    日本HP、高密度ストレージサーバーでCloudera、Hortonworks、スキャリティと組む理由
    daisukebe
    daisukebe 2015/07/03
    お、Clouderaも入ってる
  • Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する

    ビッグデータの申し子のように騒がれた「Hadoop」。以前ほどメディアを騒がせてはおらず、それほど広範囲に普及したようにも思えないものの、いまだ注目されるにふさわしい存在なのは間違いありません。しかし、今日の、あるいはこれからのHadoopがどのように進化しているのかを知れば、Hadoopを諦めていた方々も再度注目しようと思われるのではないでしょうか。 そもそもHadoopとは……? の禅問答っぽさ 突然ですが、「Hadoopとは何ですか?」と説明を求められたら、皆さんならどう答えますか? Q.「Hadoopとは何ですか?」 Ans. 複数のサーバーで構成され、MapReduceと呼ばれる仕組みで分散処理を行う環境であること データも共有ストレージではなく、各サーバーの内蔵ディスクに分散して格納されること HDFSと呼ばれる独自のファイルシステムがあり、データの分散については自動的に行われ

    Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
    daisukebe
    daisukebe 2014/08/22
    最初から結論ありきの記事だな
  • データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT

    米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合:データセンター技術への投資としては「過去最大」 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資を発表した。インテルのHadoopディストリビューションは、クラウデラの「Cloudera's Distribution including Apache Hadoop」(CDH)に統合する予定だ。 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資と、広範な戦略提携を発表した。インテルは同社の筆頭戦略株主となり、取締役に就任する。 クラウデラへの出資は、インテルがデータセンター技術に行う投資としては過去最大級。Hadoopをベースとするクラウ

    データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT
    daisukebe
    daisukebe 2014/03/28
    す、すごい...
  • わが社はいかにしてHadoopクラスター環境を構築したか

    モバイル広告という、難度の高いサービスを展開する会社が、データ活用プラットフォームをRDBMSからHadoopに置き替えるまでの実録とハウツーを紹介します。 連載の第1回目ではCyberZの広告効果計測ツールF.O.Xの概要とClouderaManager(以後、CM)の導入経緯についてお話しました。第2回目となる今回はいよいよCM自身の導入手順とCMを使ったHadoopクラスター構築について解説します。 ハードウェアの事前設計は、電力・拡張性がキモになった まず、今回使うHadoopエコシステムやクラスター・ハードウェア構成の説明をなるべくオープン紹介しておきましょう。 前回解説したようにHadoopディストリビューションはClouderaのCDH(Cloudera Distributed Hadoop)を利用します。CDHのバージョンは4.4.0、CMのバージョンは4.7.3、サーバ

    わが社はいかにしてHadoopクラスター環境を構築したか
    daisukebe
    daisukebe 2014/03/25
    “今回はいよいよCM自身の導入手順とCMを使ったHadoopクラスター構築について解説します。”
  • ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る

    ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る:イベントリポート ログ、アクセス解析、インフラ運用 2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」。濃厚なセッションをかいつまんで紹介する。 2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」として、ログ収集が行える「Fluentd」やオープンソースのHadoopディストリビューション「CDH」の最新情報や、ソーシャルゲームやWebアクセスにおけるデータ解析手法など、@ITならではの濃いセッションが多数行われた。その様子を2回に分けて紹介しよう。 セッション1:Fluentdの次期バージ

    ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る
    daisukebe
    daisukebe 2014/03/18
    ClouderaさんのCDH5ってよさそうですね。
  • スマートフォン広告計測サービスの裏側

    スマートフォンアプリ広告の世界は、Web広告よりもユーザートラッキングが難しい世界。この領域のサービス展開を支える環境を現場技術者が解説する。 筆者らの所属するCyberZはスマートフォン広告代理店として、スマートフォン向けサービスのマーケティング支援、主に広告運用の代理事業を行っています。 広告運用では、弊社が開発したスマートフォン広告効果計測ツール「Force Operation X」(以下「F.O.X」)を使用して運用の効率化を図っています。この「F.O.X」にHadoop管理ツールであるCloudera Managerを導入しています。 今回の連載では、この「F.O.X」にHadoop、Cloudera Managerを導入、運用して得られたノウハウを全3回でお伝えしていく予定です。今回は、スマートフォン広告サービスを支える技術要件とCloudera Managerの導入を決めた背

    スマートフォン広告計測サービスの裏側
    daisukebe
    daisukebe 2014/02/04
    スマホ広告システム用の Hadoop 環境を Cloudera Managerで構築。先が楽しみな連載
  • Amazon Elastic MapReduceで「Impala」が利用可能に

    Amazon Elastic MapReduce(EMR)の一部として、オープンソースのHadoop用クエリツール「Impala」が使えるようになった。 米Amazon Web Services(AWS)は12月13日、Amazon Elastic MapReduce(EMR)の一部として、オープンソースのHadoop用クエリツール「Impala」が使えるようになったと発表した。 ImpalaはSQLライクなステートメントを使って分散インメモリクエリエンジンを起動し、効率的に大量のデータを高速処理できるHDFS(Hadoop Distributed File System)、HBase向けのデータクエリエンジン。各種フォーマットの非構造化データに対応でき、ユーザー定義の関数もサポート、主要なBusiness Inteligence(BI)ツールと互換性を持つ。 Amazon EMRではIm

    Amazon Elastic MapReduceで「Impala」が利用可能に
    daisukebe
    daisukebe 2013/12/17
    これは興味深い
  • Hadoopアプリ開発キット「Cloudera Development kit」を公開

    Hadoop環境用のアプリケーション開発やデータ操作を容易にする開発キットをClouderaが公開。「いまどき」のアプリケーション開発者に扱いやすい環境を整備する。 米Clouderaは、2013年5月7日、Hadoop用アプリケーション開発キット「Cloudera Development kit(CDK)」をGitHub上で公開した(リンク)。現在のバージョンは0.2.0。ライセンスはApache License V2を採用している。 CDKには、Clouderaの提供するHadoopディストリビューション用のアプリケーション開発を容易にするライブラリ群、ツール類、サンプルコード、ドキュメントが含まれる。 現リリースにはHDFSやローカルのファイルシステムに含まれるデータセットに対して「徹底的にシンプルに動作する」APIセットである「CDK Data module」が含まれる。 OSSで

    Hadoopアプリ開発キット「Cloudera Development kit」を公開
    daisukebe
    daisukebe 2013/05/13
  • Cloudera、Hadoop管理の新製品「Cloudera Navigator」など発表

    ClouderaがO'Reilly Strataカンファレンスで、Hadoopシステム内の、データ可視化、コントロールにフォーカスしたツールを発表。シンプルに管理ができるようになるという。 米Clouderaは2月26日、米カリフォルニア州で開かれたO'Reilly Strataカンファレンスで、新製品の「Cloudera Navigator」と「Cloudera Enterprise BDR」(Backup and Disaster Recovery)、およびエンド・トゥ・エンドのHadoop管理アプリケーション最新版となる「Cloudera Manager 4.5」を発表した。 新ツールのCloudera Navigatorは、Cloudera Managerを補完するアプリケーションとなる。Cloudera Managerがシステム管理にフォーカスしているのに対し、Cloudera

    Cloudera、Hadoop管理の新製品「Cloudera Navigator」など発表
    daisukebe
    daisukebe 2013/02/27
  • カラム指向型データベース(HBase、Hypertable、Cassandra)編

    書籍紹介 連載は下記書籍から第5章を基に、@IT向けに再構成して掲載しています。 目次 序 章 ビッグデータの時代 第1章 NOSQLとは何か? 第2章 NOSQLのデータモデル 第3章 アーキテクチャの基概念と技術 第4章 HadoopはNOSQL? 第5章 主なNOSQLデータベース製品 第6章 NOSQLデータベースの選択基準 第7章 NOSQLを使うビジネス 連載は書籍『NOSQLの基礎知識』(リックテレコム刊、ISBN:978-4897978871)で解説されている内容から一部を抜粋し、連載向けに一部再編集して掲載したものです。 書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基概念から、各プロダクトの特徴を理解できる内容になっていま

    カラム指向型データベース(HBase、Hypertable、Cassandra)編
    daisukebe
    daisukebe 2013/01/12
    HDFSについての記載があったので。CDH4以降ではHDFS HAがサポートされているので、HDFSは単一障害点(SPOF)となりません。去年の4月発売の掲載元書籍がそのような記述になってるのでいたしかたないか。。
  • @IT:DNS Tips:digコマンドとは

    % dig @ns1.jprs.co.jp jprs.co.jp mx ; <<>> DiG 9.2.1 <<>> @ns1.jprs.co.jp jprs.co.jp mx ;; global options: printcmd ;; Got answer: ;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 59551 ;; flags: qr aa rd ra; QUERY: 1, ANSWER: 2, AUTHORITY: 2, ADDITIONAL: 4 ;; QUESTION SECTION: ;jprs.co.jp.      IN     MX ;; ANSWER SECTION: jprs.co.jp.   86400 IN    MX     20 mx2.jprs.co.jp. jprs.co.jp.   86400

    daisukebe
    daisukebe 2012/10/17
  • 管理が困難―分散処理の常識はZooKeeperで変わる

    管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z

    管理が困難―分散処理の常識はZooKeeperで変わる
    daisukebe
    daisukebe 2012/06/24
    わかりやすいな