並び順

ブックマーク数

期間指定

  • から
  • まで

401 - 440 件 / 11443件

新着順 人気順

hadoopの検索結果401 - 440 件 / 11443件

  • 「データ解析の伝道師」になるため、私が参考にした書籍5選【鈴木理恵子】 - エンジニアtype | 転職type

    2014.08.14 スキル 業界で名の知れたプログラマーは、今年の上半期に何を学んでいたのか? 「同業者が役に立ったものは、自分にも役に立つはず」という仮説を基に、彼らの学びlogから、2014年上半期の流れを振り返り、今後の動向を予想してみよう! トレジャーデータ株式会社 ソリューションアーキテクト/エバンジェリスト 鈴木理恵子さん(@asyoulike007) 東京女子大学へ入学するも、好きなギター製作の道へ進もうと専門学校へ。卒業後は一転、IT業界に進み、プログラマーとなる。システム開発会社、名刺管理サービス会社を経て、ミクシィに入社。プラットフォーム開発に携わる。2013年12月、トレジャーデータに入社 新しい挑戦でより専門的な知識が必要に 2013年12月、ミクシィからトレジャーデータへ転職した鈴木さん。以来、ビッグデータの活用方法についてのセミナーや講演活動を行う一方、同社の

      「データ解析の伝道師」になるため、私が参考にした書籍5選【鈴木理恵子】 - エンジニアtype | 転職type
    • Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

      Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 本稿では、並列分散で「バッチ処理」を行う方法につい

        Hadoopの現実解「バッチ処理」の常識をAsakusaで体得
      • free-programming-books/free-programming-books.md at master · EbookFoundation/free-programming-books · GitHub

        Removal of "Learn Python in Y Minutes" from free-programming-books.md and addition to free-programming-cheatsheets.md Co-authored-by: Eric Hellman <eric@hellman.net> Index ABAP Ada Agda Alef Android APL Arduino ASP.NET Assembly Language Non-X86 AutoHotkey Autotools Awk Bash Basic BETA Blazor C C# C++ Chapel Cilk Clojure COBOL CoffeeScript ColdFusion Component Pascal Cool Coq Crystal CUDA D Dart DB

          free-programming-books/free-programming-books.md at master · EbookFoundation/free-programming-books · GitHub
        • 「恐怖、シリコンバレーの真実!!!」「#地獄のシリコンバレー」についての私見 🤔 上杉周作

          宣伝: 僕が共訳した「Factfulness(ファクトフルネス)10の思い込みを乗り越え、データを基に世界を正しく見る習慣」が日経BP社より2019年1月に発売されました。本気で訳したので、ぜひお手にとってみてください! 「恐怖、シリコンバレーの真実!!!」「#地獄のシリコンバレー」についての私見2015/05/11 ぼくは二年ほど前に大阪の天王寺高校で講演をしたのですが、そのころから交流を続けている高校生の方から先日、次のようなメールをいただきました (加筆修正済み)。 将来、シリコンバレーで働きたいと思っています。ですが最近、シリコンバレーは暮らしにくく、非人間的な場所であるという意見を見聞きするようになりました。エンジニアの給料は確かに高いが、その分、家賃や物価も高く暮らすにはすごくお金がかかる、会社が傾けば簡単にクビになる、残業や休日出勤手当なんてものは一切出ない、家族手当や通勤手

            「恐怖、シリコンバレーの真実!!!」「#地獄のシリコンバレー」についての私見 🤔 上杉周作
          • マルチコア時代のプログラマは関数脳になろう〜Scala・Clojure〜 - Tech-Sketch

            前回 の記事では、関数型プログラミングの概念とJava8による実装例を示しました。しかしJava8のリリースは来年まで延期されてしまったため、今すぐ試してみるには少しハードルが高いかもしれません。 そこで今回は、Java7のJVM上で動作する代表的な関数型プログラミング言語、 Scala と Clojure を紹介します。 Scalaとは では、 Scala から紹介しましょう。 ScalaはJVM上で動作するプログラミング言語で、関数型の特徴とオブジェクト指向の特徴を合わせ持った、欲張りな言語です。 JVM上で動作するため、既存の膨大なJavaライブラリをそのまま流用でき、JVMのパフォーマンスチューニングノウハウを最大限活用することができます。またJavaよりも豊富な記述形式を持ちながらもJavaオブジェクトをそのまま扱え、強力な型推論を持った静的型付け言語でもあるため、定型的で冗

            • DockerとAnsibleの使い分けを手探りで考えてみた - Taste of Tech Topics

              皆さんこんにちは。 アキバです。 久しぶりにエントリ書きます。 突然ですが、今、システムをデプロイすると言ったら自動化しますよね。 そこで、皆さんは何を使っていますか? 私は、最近、DockerとAnsibleを仕事でガチに触る機会がありました。 ※本番運用のサーバもDockerを使って動作させました。 今回は、そこで得たことについて書きます。 皆さんの参考になればと思います。 命題:Dockerを使うべきか、Ansibleを使うべきか。 作るべきシステムは、いわゆるWebシステムで、WEBサーバとAPサーバで構成しています。 WEBサーバとAPサーバはそれぞれN台のクラスタ構成です。 ※以下の図は、本番運用で想定しているサーバ構成を今回の説明用に抽象化したものです。 N台のクラスタ構成ということで、Dockerを使おうとなりました。 コンテナでスケールアウト出来るから…ですね。 さてここ

                DockerとAnsibleの使い分けを手探りで考えてみた - Taste of Tech Topics
              • Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey

                Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。 A new collaboration with Google Cloud - Twitter Twitterは基本的に自社でデータセンターを保有し運用してきました。2017年1月にTwitterのブログに投稿された記事「The Infrastructure Behind Twitter: Scale」によると、Twitterのデータセンターは5つの大陸にあり、合わせて数十万台のサーバが運用されています。 同社が運用しているHadoopクラスタは世界最大級の規模として、以下のように説明されています。 Hadoop: We have

                  Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey
                • Hadoop MapReduceプログラムを解剖する

                  オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

                  • Jenkinsとhadoopを利用した継続的データ解析環境の構築

                    WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説Takao Tetsuro

                      Jenkinsとhadoopを利用した継続的データ解析環境の構築
                    • まさかの日記:MSの某氏との会話ログ

                      コンピュータサイエンス系の人たちの間では、サーチのテクノロジーで人気があるのはリリバンシー、次はバーティカルサーチ。 他の要素としては、クローリングとインデキシング、クラウド系というところらしい。 サーバをグリッド化(やや死語だな)して、、みたいなのは、コンピュータサイエンスというよりはエンジニアリング。 昔、シックスアパートの某Perlギークの人と話をしたとき、「自分はエンジニアリング系じゃないんで、、」と言っていた。そのときはエンジニアリングという言葉の定義がよくわからなかったけど、なんとなくわかってきたかも。 あ、全文検索とかマイニングとかも面白いといっていた。まあこれは要素技術だけど。Luceneを作った人が別で作ってる奴が結構良いって。なんだろ。SolrかHadoopか。 あと、エンタープライズサーチ。例えばメール。誰がどんな単語を多用しているかをサマリーしたり、検索させたり。

                        まさかの日記:MSの某氏との会話ログ
                      • Developers.IO:サービス・テーマ別 全AWS関連エントリまとめ | Developers.IO

                        現在、クラスメソッド株式会社 開発ブログ『Developers.IO』には、現時点で1500件を超えるエントリが蓄積されており、そしてこと"AWS"に関しては、全エントリの1/5以上、300件超のエントリがその比率を占めています。(全エントリ:1587件、AWS関連エントリ(カテゴリ=AWSのもの):346件、共に2013/07/31現在)。 そこで今回、『AWS』に関するエントリを抽出、整理し、『まとめ』ページとして作成してみました。ざっくり以下のルールで整理しています。 『カテゴリー』または『タグ』にAWSが設定されているエントリを抽出しています。 エントリの内容に応じて、一番近いと思しきテーマのページに振り分けています。 1エントリで復数のテーマについて言及している場合、それぞれのテーマ(で振り分けられているページ)に振り分けています。 (※各種まとめページについては当ブログの『まと

                          Developers.IO:サービス・テーマ別 全AWS関連エントリまとめ | Developers.IO
                        • Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ

                          Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ BazelはKubernetesやHadoopのように、もともとGoogle社内で使われていたソフトウェアがベースとなってオープンソース化されたものです。BazelのWebサイトには次のような説明が記されています。 When you build software with Bazel, you're running the same code that has been refined and tested for years at Google to build heavy-duty, mission-critical infrastructure, services, and applications.」 Bezelでビルドを行うとき、それは長年にわたってGoogleのヘビーデュ

                            Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ
                          • Blog by Sadayuki Furuhashi

                            MessagePackフォーマット仕様のPull Request #209をマージし、MessagePackにTimestamp型を追加しました。 ※この記事の英語版は XXX にあります(翻訳中) Extension型の型コード -1 として定義されているため、後方互換性が維持されています。つまり、既にExtension型に対応しているデシリアライザであれば、Timestamp型を使用して作成されたデータを、Timestamp型に対応していない古いデシリアライズで読み出すことができます。 新しいTimestamp型には timestamp 32、timestamp 64、timestamp 96 の3つのフォーマットがあり、よく使う値をより少ないバイト数で保存できるようになっています。例えば、1970年〜2106年までの時刻で、秒までの精度しか持たない時刻であれば、合計6バイトで保存でき

                              Blog by Sadayuki Furuhashi
                            • [速報]「Greenplum Database」がオープンソースに。DWH向けMPPデータベース。Pivotalが発表

                              Pivotalは2月17日(日本時間2月18日午前4時)にオンラインイベントを開催。同社が提供するビッグデータ関連の3つのソフトウェア「GemFire」「HAWQ」「Greenplum Database」をオープンソースにすると発表しました。 GemFireはインメモリデータベース、HAWQはHadoop上でSQLのクエリを実行できるソフトウェア。 もっとも注目されるのがGreenplum Databaseです。これはもともとEMCが買収したデータウェアハウス向けのデータベースで、その後VMwareからスピンアウトしたPivotalのラインナップに移管されました。 Greenplum Databaseは多数のマシンに分散させたデータをシェアドナッシングのアーキテクチャにより大規模並列分散処理することで、ペタバイトクラスにまでスケールアウト可能な高性能データベースとされています。 Pivot

                                [速報]「Greenplum Database」がオープンソースに。DWH向けMPPデータベース。Pivotalが発表
                              • blog.katsuma.tv

                                前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

                                • AWS、自然言語でデータベースに問い合わせ、データ分析ができる「Amazon QuickSight Q」正式リリース

                                  Amazon Web Services(AWS)は、インメモリBIツールの「Amazon QuickSight」の新機能として、自然言語で問い合わせができる「Amazon QuickSight Q」を正式リリースしたと発表しました。 Amazon QuickSight Qのベースとなっている「Amazon QuickSight」は、さまざまなデータソースに接続することで、データの分析とビジュアル化を行うBIツールです。 Amazon RDSのデータベースやAmazon Aurora、Amazon Redshift、HadoopのAmazon EMR、Amazon S3内のフラットファイル、MySQL、Oracle、SQL Server、PostgreSQLをはじめとして、オンプレミスのデータソースやSalesforce.comなどの外部データソースを含む、さまざまなデータソースに対応します

                                    AWS、自然言語でデータベースに問い合わせ、データ分析ができる「Amazon QuickSight Q」正式リリース
                                  • ワザノバ | wazanova.jp

                                    Follow @WazanovaNewshttp://engineering.linkedin.com/data-streams/apache-samza-linkedins-real-time-stream-processing-framework LinkedInのエンジニアブログで、分散ストリームプロセッシングフレームワークであるApach Samzaをオープンソース化したことを紹介してます。 LinkedInのリアルタイムアーキテクチャはKafkaに支えられ、アクティビティデータ、運営KPI、サービスコールのトレース、ログデータ、アプリのメッセージなどの取得に利用されている。 Samzaが実現しているストリームプロセッシングによるアウトプットの取得はバッチよりもかなり短い処理が期待できるが、ハードウェアの障害や分割/分散された環境で実現することは大きなチャレンジであった。 Hado

                                    • OpenJDKは使い物になるか?OpenJDKの実際と今後 (NTTデータ オープンソースDAY 2015 Autumn 講演資料)

                                      ■NTTデータ オープンソースDAY 2015 Autumn (2015/10/19 講演資料) 『OpenJDKは使い物になるか? OpenJDKの実際と今後』 NTTコムウェア株式会社 末永 恭正 http://oss.nttdata.co.jp/hadoop/event/201510/ Read less

                                        OpenJDKは使い物になるか?OpenJDKの実際と今後 (NTTデータ オープンソースDAY 2015 Autumn 講演資料)
                                      • RFC7938 - 大規模データセンター内でのルーティングのためのBGPの利用方法 - show log @yuyarin

                                        はじめに この文書は RFC7938 - Use of BGP for Routing in Large-Scale Data Centers の日本語訳です。 翻訳者はデータセンターネットワークの専門家ですが翻訳の専門家ではありません。技術的な意味を維持した上でなるべく読みやすい日本語になるようにしているため、英文の直訳ではなく一部のニュアンスがかけている場合がありますのでご了承ください。オリジナルの目次、謝辞、参考文献等は省略しています。 免責 いつものやつ 目次 はじめに 免責 目次 概要 1. 導入 2. ネットワーク設計の要件 2.1 帯域とトラフィックのパターン 2.2 CAPEXの最小化 2.3 OPEXの最小化 2.4 トラフィックエンジニアリング 2.5 要件の要約 3. データセンタートポロジーの概要 3.1 従来のDCトポロジー 3.2 Closネットワークトポロジー

                                          RFC7938 - 大規模データセンター内でのルーティングのためのBGPの利用方法 - show log @yuyarin
                                        • Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO

                                          よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

                                            Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO
                                          • 「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました - hamadakoichi blog

                                            電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop View more presentations from Koichi Hamada 2900万人以上の登録会員をかかえるモバイルソーシャルゲームプラットフォーム「Mobage」では、1日20億超の行動情報が蓄積されています。これらの大規模行動データを対象に、データマイニング・機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗

                                              「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました - hamadakoichi blog
                                            • 【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)

                                              グリーではユーザに喜んでもらえるサービスを提供するための継続的な改善を重視しており、創業期よりログデータの分析基盤の開発・運用に注力してまいりました。昨年より、従来の自社開発の解析基盤に加え、Hadoopやfluentdなどを本格的に運用開始し、解析基盤のさらなる強化を実施しております。サービスの成長を支えるデータ分析基盤の構築・運用・活用方法について自社の事例をベースにお話します。Read less

                                                【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
                                              • 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp

                                                はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!やはてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景 筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

                                                  第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp
                                                • 第28回 データマイニング+WEB@東京( #TokyoWebmining 28th) −データマイニング・機械学習とビジネス展開 祭り− を開催しました - hamadakoichi blog

                                                  2013/7/27 "第28回 データマイニング+WEB@東京−データマイニング・機械学習とビジネス展開 祭り−"を開催しました。 第28回 データマイニング+WEB@東京 ( #TokyoWebmining 28th)−データマイニング・機械学習とビジネス展開 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 参加者Twitter List: Twitter List TokyoWebmining 28th 参加者セキココ:第28回 データマイニング+WEB @東京 セキココ (作成してくれた @komiya_atsushi さ

                                                    第28回 データマイニング+WEB@東京( #TokyoWebmining 28th) −データマイニング・機械学習とビジネス展開 祭り− を開催しました - hamadakoichi blog
                                                  • Gunosyのパーソナライズを支える技術 -ワークフロー編- - Gunosy Tech Blog

                                                    この記事は Gunosy Advent Calendar 2017 4日目の記事です qiita.com はじめに こんにちは、データ分析部のy-abeです。 パーソナライズシリーズの続きになります。 tech.gunosy.io tech.gunosy.io 今回はワークフロー編です。 パーソナライズにおいてユーザーや記事の素性抽出や、モデル作成をするコンポーネントや記事リストを生成するAPIが必要です。 それらのコンポーネント間でうまくデータを取り回すためにはワークフローが重要です。 ワークフローは、いわばシステム上における兵站といってもいいでしょう。 「戦争のプロは兵站を語り、戦争の素人は戦略を語る」という名言もあるくらいです。 さて、パーソナライズ記事配信のタスクの流れをざっくりいうと、 ユーザーと記事の素性を集めて整形(ベクトル化) -> 機械学習でモデルを作成 -> 素性とモデ

                                                      Gunosyのパーソナライズを支える技術 -ワークフロー編- - Gunosy Tech Blog
                                                    • Kansai.pm での発表資料 (Hadoop Streaming で MapReduce) - naoyaのはてなダイアリー

                                                      Kansai.pm に参加しました。とても楽しかったです。自分も "Hadoop Streaming で MapReduce" という題目で発表しました。取り急ぎ、資料を以下に公開します。 http://bloghackers.net/~naoya/ppt/080530kansaipm.ppt MapReduce は Google のバックエンドで動いている分散並列バッチ処理システムです。GFS は Google の分散ファイルシステムです。Google ウェアのクローンとしてオープンソースで開発されているのが Hadoop。Hadoop は Yahoo! Inc や Facebook, Amazon.com などでも利用されているとのこと。Hadoop は Java ですが、Hadoop Streaming を使うと Java 以外でも MapReduce できます。 以下のエントリも合

                                                        Kansai.pm での発表資料 (Hadoop Streaming で MapReduce) - naoyaのはてなダイアリー
                                                      • 第1回 Amazon Redshiftとは[前編] | gihyo.jp

                                                        Amazon Web Services(AWS)は次々と新しいサービスを世の中に出して、クラウド・コンピューティングの可能性を広げていっています。そのAWSから登場した最新のサービスであるAmazon Redshiftは、そのパフォーマンスや驚異的な低コストのため、発表当時から大変な反響を呼んできました。 この連載では、 Redshiftの概要からその利用方法まで、主にあまりデータウェアハウスを利用した経験がないWeb開発エンジニアなど向けに、このビッグデータ向けクラウド・データウェアハウス製品であるAmazon Redshiftの解説をして行きたいと思います。 まずは、そもそもAmazon Redshiftとは何なのか、その概要から説明します。 Amazon Redshiftはビッグデータ時代のクラウド・データウェアハウス 2012年11月、AWSにとって初めての世界的なユーザカンファレ

                                                          第1回 Amazon Redshiftとは[前編] | gihyo.jp
                                                        • Amazon AthenaをBigQueryと比較してみた

                                                          こんにちは、データ分析部の阿部です。 作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。 今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとは データの準備 テーブル作成 速度測定 まとめ Athenaとは 本日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ(CSV, JSON, その他フラットファイル)に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。 課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go

                                                            Amazon AthenaをBigQueryと比較してみた
                                                          • Apache Spark の紹介(前半:Sparkのキホン)

                                                            第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料 『Apache Sparkのご紹介』(前半:Sparkのキホン) NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less

                                                              Apache Spark の紹介(前半:Sparkのキホン)
                                                            • 機械学習 × MapReduce - ny23の日記

                                                              個人的な興味というより,雑用絡みで眺めた論文の紹介.機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ.全然網羅的ではないけど,誰かの役に立つかも知れないので,幾つかメモしておく.まず古典的にはこれ, Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム(バッチ学習)の多くは,Statistical Query Model で記述できて,それらは summation form で記述できる (から,MapReduce で並列化できる).実装は Mahout.ただ最近は,バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて,バッチアルゴリズムを並列化することのメリットはあまり無い.オンラインアルゴリズムだとパラメタが連続的に更新されるので,MapR

                                                                機械学習 × MapReduce - ny23の日記
                                                              • HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開

                                                                HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)をオープンソースで公開しました。 これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。 グーグルのDremel

                                                                  HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開
                                                                • 超高速のPostgreSQLとしてGreenplumを気軽に使う

                                                                  はじめに ビッグデータ、データサイエンスという言葉の流行を大きく後押ししたのは大規模なスケールアウト、分散処理を可能としたHadoopの存在です。しかしデータサイエンティストは日々のデータ処理作業において必ずしも複数台のマシンを必要とするような大規模な処理ばかり行っているわけではありません。自身の開発用ワークステーション1台で完結するような処理も多数存在します。 2016年ではもはや当たり前ですが、多くのワークステーションはマルチコアのCPUを搭載しており、CPUがボトルネックになるようなデータ処理をマルチコアを活かして並列処理する重要性は高まっています。しかし、意外に多くのソフトウェアが、この当たり前に期待される「マルチコアを活かして単一ワークステーション上で高速並列処理すること」が出来ていません。 この悩みから、筆者は過去にテキストデータ処理を簡単にマルチコア対応にするJavaフレーム

                                                                    超高速のPostgreSQLとしてGreenplumを気軽に使う
                                                                  • (翻訳) データエンジニアの始まり - satoshihirose.log

                                                                    訳者まえがき 原著者 Maxime Beauchemin の許可を得て以下の記事を翻訳・公開しました。 medium.freecodecamp.org 原著者は、Apache Airflow や Apache Superset のクリエーターで、現在は Lyft で Data Engineer をしています。 データエンジニアの始まり(翻訳) 私は 2011 年にBIエンジニアとしてFacebookに入社しました。2013年に退職するときには、私はデータエンジニアでした。 昇進もしくは新しい役割に就いたわけではありません。そうではなく、Facebookは、私たちが行っていた仕事が伝統的なBIを超えていたことに気づいたのです。私たち自身のために作り出した役割は、まったく新しい専門分野でした。 私のチームはこの変革の最前線にいました。私たちは新しいスキル、新しいやりかた、新しいツール開発し、そ

                                                                      (翻訳) データエンジニアの始まり - satoshihirose.log
                                                                    • DMM.comのビッグデータ基盤を支える技術

                                                                      TECH PLAY Conference 2017 の発表資料となります ビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ 鈴木 翔太 / 吉田 龍馬 === 弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用を行っており、それに加えアドホック分析には Presto、エンジニア・アナリストが利用するBIツールとして Zeppelin / Re:dash、ETLにワークフローエンジン Digdag など様々なOSSを積極的に採用し、より快適な分析基盤の構築に努めています。当セッションでは、ビッグデータ部発足時の分析基盤の課題を解決するためにこれまでにどのような取り組みを行ってきたかをご紹介します。

                                                                        DMM.comのビッグデータ基盤を支える技術
                                                                      • Android版Facebookアプリ内で使われているOSSを眺めてて見つけた43のライブラリ - ナカザンドットネット

                                                                        メニュー>概要>ライセンス の中にあるアレですね。 なんか良いUIライブラリ見つからないかなーと思って探し始めたら、案外と色々入ってて心折れそうになった。 どこで使ってんだよそれ感高い奴もかなりありますし、明日からでも使ってみたいJoda-Timeのようなライブラリもありました。コピーレフトで仕方なく書いてあるんだろうなあ的な、内部ライブラリっぽいものは省いてあります。 さあ、頑張ってみていきましょう。 AChartEngine https://code.google.com/p/achartengine/ グラフとか書ける系のアレ。 Application Crash Reporting for Android http://acra.ch/ 通称ACRA。クラッシュレポートをPlayストアとは別に収集する系のアレ。 某秋田の地ビールとは関係ありません。 ActionBarSherloc

                                                                          Android版Facebookアプリ内で使われているOSSを眺めてて見つけた43のライブラリ - ナカザンドットネット
                                                                        • PostgreSQLのメモリ管理 | Everyday Deadlock

                                                                          この記事は PostgreSQL Advent Calendar 2012 の13日目の記事です。 昔からデータベースエンジン関係の研究をしているうちの研究室 では、「PostgreSQLを使う」というとPostgreSQLのコードをいじってTPCベンチマークを走らせることを指すので、未だにSQLとか書けなくて困ることが多いのですが、幸か不幸かPostgreSQLのソースコードはそこそこ読めるようになりました。 そんなわけで、PostgreSQLのソースコードの中でも、今回のAdvent Calendarのネタとしてメモリ管理の部分について紹介します。 これからPostgreSQLのコードを読んでみたいという人にとっては、コードのどの部分を読んでも必要となる知識なので、割と役に立つとおもいます。 【宣伝】大晦日にデータベースの同人誌をコミケで売ります 本題に入る前にいきなり宣伝で恐縮ですが

                                                                          • LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入

                                                                            こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。 本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。 課題: このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。 コード記述(ステップ1

                                                                              LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
                                                                            • MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development

                                                                              どうも,実は今年から開発チームにjoinしていた中川です.可愛い犬の写真がなかったので,可愛いマスコットの画像を貼っておきます. 最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました.これはつまり,それだけ大量のデータをなんとか処理したいという要望があるからだと思います.しかし当たり前ですが,MapReduceは銀の弾丸ではありません. ということで,最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について,社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います. Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです.長いのでBSPと書きます.さて,グラフから最短経路を求める時,MapReduceは使えるでしょうか?このような論文が出るくらいですから出来ないことはあ

                                                                                MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development
                                                                              • はてなブックマークリニューアル発表会見に行ってきた。検索すごかった。 - JavaScriptとかPerlとかPHPとかさくらとか勉強する

                                                                                はてなブックマークリニューアル発表会のお知らせ - はてなブックマーク日記 - 機能変更、お知らせなどに行ってきました。 結構早口での発表だったのに、あっという間に時間が過ぎてしまっていた。 と言うことで、発表で漏れた話とかまだまだありそうな感じでした。 発表会に出た人はアルファ版を使えるということでざっくり使ってみた感想とか 発表会について みんな写真ガンガン撮るのね カンファレンスとかとは違ってガンガン写真撮る様子に驚いてしまった Preferred Infrastructureの太田さんが言っていた「検索に人を感じることができる」ってのは良い言葉だなと思った 昔のY!の検索みたいな「人によるランキングとかカテゴリー分け」が駄目だなってところから、「機械的にランキング」するGoogleみたいのが出てきたけど、やっぱりゴミは多いし、結局情報の取捨選別は人がしないといけないよねという流れで

                                                                                  はてなブックマークリニューアル発表会見に行ってきた。検索すごかった。 - JavaScriptとかPerlとかPHPとかさくらとか勉強する
                                                                                • 開発環境と本番環境の違いを埋めるHeroku、Engine Yardの新機能:Rails Hub情報局:エンジニアライフ

                                                                                  「でも、ステージング環境ではちゃんと動いています!」 こう言われてブチ切れた経験があります。業務アプリのバギーな動作を社内のエンジニアに指摘したところ、テスト用の環境では動いているというのです。「いや、ぼくら本番環境のアプリを使っていて現に困っているので、それを直してほしいだけなんですけど」というと、「でも、ちゃんとステージング環境では動いています。お使いになっているのがChromeのようですが、Chromeでの動作検証はしていません(キリッ」というようなやり取りに絶望しました。原因はブラウザではなく、バージョンアップしたアプリ自体にあったのですが、ステージング環境では問題が発現しなかったんですね。 というように、開発環境、ステージング環境、プロダクション環境(本番環境)の3つは、大小いろいろな違いがあって、完全に一致させることは難しいものです。手元の環境で動いているアプリが、プロダクショ

                                                                                    開発環境と本番環境の違いを埋めるHeroku、Engine Yardの新機能:Rails Hub情報局:エンジニアライフ