本文「hadoop」を検索 - はてなブックマーク

441 - 480 件 / 11471件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果441 - 480 件 / 11471件

DBMSの世界はもうとっくに変革の嵐 | 独り言v6
- 105 users
- www.nonsensecorner.com
- テクノロジー
- 2013/01/08
DBの世界に起こる変革を見てびっくりするほどがっかりした。DBMSの世界はこれから変革が起こるどころが、もうすでに変革ががんがんに起こっていて、One Size Does Not Fit Allの時代だと言われて久しい。Oracle RDBMSだけの世界とかを見ていると、その変化が見えなくなってしまうことが多いだろう。しかしちょっとRDBMSを離れたら、現在はDBMS戦国時代であり、Oracle社もその有力なプレイヤーの一人である。とりあえず現状を知りたいと思ったら、以下が非常に参考になる。 NoSQLの現状 50以上のソフトウェアがひしめく市場、これを戦国時代と言わずしてなんだろうか。MongoDBあり、Hadoopあり、KVSあり、NewSQLあり・・・これが21世紀のDBMSの現状だ。ちなみに先のサイトで話にあった「ジャーナルを書かないRDBMS」というのはつまりLog Str
- DB
- database
- RDBMS
- ssd
- データベース
- NoSQL
- DBMS
- アーキテクチャ
- Hadoop
【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉
- 105 users
- blog.takuya-andou.com
- テクノロジー
- 2019/10/30
こんにちはあんどう(@t_andou)です。今回はKubernetesを使って並列処理させた記録です。まだ「とりあえずそれっぽく動くまで試してみた」という段階で、kubernetesを理解できてはいないので自分用のメモを公開しているという認識でご覧ください。間違っている部分や、よりスマートなやり方がありましたらご指摘いただけると幸いです。この記事の概要機械学習に使う特徴量の作成で1週間かかりそうな処理を10分くらいで終わらせられないかと考え、GKE(=GoogleのKubernetes環境)を使い試行錯誤した記録です。今回は一部失敗して完了時間が1.5時間になったものの、設定を上手く出来れば15分程度で終わる見込みです。対象読者・Kubernetesの概要は知っているくらいのレベルの人・KubernetesのJobを使った並列処理をしたい人目次この記事の概要対象読者
- kubernetes
- 分散処理
- あとで読む
- mysql
- node
- MachineLearning
- 事例
マネタイズとアウトプットを意識する～エンジニアの視点から考えるネットサービス：エンジニアブレークスルー#02レポート | gihyo.jp
- 104 users
- gihyo.jp
- 暮らし
- 2010/12/20
マネタイズとアウトプットを意識する～エンジニアの視点から考えるネットサービス：エンジニアブレークスルー#02レポートエンジニアがどのようにしてブレークスルーしていけるかエンジニアブレークスルーは、その名のとおり「エンジニアがどのようにブレークスルーしていけるか」をテーマに、株式会社ゼロスタートコミュニケーションズ山崎徳之氏を中心にスタートした活動。10月7日に、スタートアップデイティングの一企画として第1回が開催され、今回初の単独開催として、第2回目開催の運びとなった。今回は二部構成で、一部がパネルディスカッション、二部がパネリストと参加者の交流を兼ねたエンジニア査定大会が実施された。イベントの企画者でもあり、モデレータを務めた山崎氏。エンジニアの視点から考えるネットサービス今回のパネリストは以下の通り。米林正明氏（株式会社Abby）閑歳孝子氏（株式会社ユーザーローカル
- engineer
- エンジニア
- イベント
- マネタイズ
- business
- event
- development
- 開発
- developer
Javaのマイクロベンチマークツール「JMH」 - Taste of Tech Topics
- 104 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2013/11/07
本ブログの読者の皆様方におかれましては、JavaのArrayListとLinkedListの実装の違いにより性能に差があることは、当然のように熟知のことと存じあげます。しかし！実際にいかほどの差があるのか、それを数値で説明できるという方はどれほどいらっしゃるでしょうか。いきなり丁寧語の煽りでスタートしました @cero_t です。そう、今日のテーマはマイクロベンチマークです。たとえば、文字列を + で結合すると遅い。 ArrayListの初期化時にはサイズを指定したほうが良い。 ArrayListはループ処理が得意、LinkedListは途中の追加が得意。など、よくあるパフォーマンスのプラクティスについては既に知っているという方も多いと思うのですが実際に何倍ぐらいの差なのか（どれぐらいのオーダーの差なのか）を数値で話すことができるという方は、あまり多くないように思います
- java
- JMH
- benchmark
- performance
- ベンチマーク
- tool
- OpenJDK
- Maven
- パフォーマンス
- programming
検証ラボ - 目次：ITpro
- 104 users
- xtech.nikkei.com
- 暮らし
- 2008/04/15
注目すべき製品や技術について，実際に細部にわたって検証・評価を行い，公正な観点からレポートする。現場ではやりたくてもできない，やるヒマがない，でも結果は知りたいテーマを取り上げる。観点の絞り込みで設計レビューは改善できるか？要件定義書や設計書のレビューでは、後工程での修正コストを低減させる「重大な指摘」を数多く挙げることが重要だ。その方法の一つとして、レビューの観点を絞り込むことが提唱されている。観点を絞り込むことで、重大な指摘はどれだけ増えるのか。レビューの研究者である森崎修司氏に、二つの検証結果を報告してもらった。ウイルスを観察してみるウイルスやワームはパソコンやサーバーの中でどのように動作するのか。その動きを目で見ることは，脅威を体感するという意味で意義がある。そこで，検証マシンを用意し，実際に感染させ，発症させ，その挙動を観察した。 KVS「Cassandra」の実力デー
- security
- セキュリティ
- ITpro
- pc
- ウイルス
- 読み物
- 資料
今更CAP定理で分散データストアの勉強を始めてみた - As a Futurist...
- 104 users
- blog.riywo.com
- テクノロジー
- 2012/07/28
長くなったので三行でまとめると CAP 定理を素人なりに調べてみた分散データストアを CAP 定理で俯瞰してみたどのデータストア使うかの決定因子は CAP 定理的な視点の方がインタフェースとかより先異論は認めるというか、専門知識ゼロなのでもっと正しい理解があればぜひ教えてくださいませ。はじめに僕は MySQL 厨なんですが、最近はやれ「MongoDB がいい」だの「HBase 最高」だのとよく聞きます。これら多種多様なデータストアを語る上で、「RDBMS VS NoSQL」みたいに問い合わせ言語の方式やデータ保存形式の違いで語るのは宗教論かなぁと僕は思ってます。単体プロセスのデータストアとしての特徴とか性能とかは正直なんでもいいかなぁと。思うに、本質的に重要なのは MySQL の master-slave&sharding という Web で今までスタンダードに使われてきた分散
- cap
- nosql
- 分散システム
- MySQL
- データベース
- db
- database
- hbase
- mongodb
- 分散
データサイエンティストサミット 2013に参加してきた | DevelopersIO
- 104 users
- dev.classmethod.jp
- テクノロジー
- 2013/12/07
データサイエンティストサミット：プログラム『ビッグデータ』と共に昨今業界を賑わせているフレーズとして『データサイエンティスト』というものがあります。用語の意味や解説などは下記リンクなどを参考頂くとして、世間の見方としては様々ある模様です。AWS等クラウド全盛の昨今、ビッグデータ及びデータサイエンティストと呼ばれる役割や要素がその重要さを増しているのはまず間違いないと言って良いでしょう。データサイエンス - Wikipedia 一般社団法人データサイエンティスト協会脚光浴びるデータ・サイエンティストってどんな人？ : 日経BizGate 「ITエンジニアのためのデータサイエンティスト養成講座」最新記事一覧 - ITmedia Keywords 「あいつ・・・なにやってるの？」データサイエンティストを殺す4つの環境 - dataminer.me 今世紀最も熱い職業「データサイエンティス
mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
- 103 users
- mixiengineer.hatenablog.com
- テクノロジー
- 2012/08/09
こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，
- hive
- hadoop
- mixi
- JSON
- apache
- udf
- ログ解析
- *あとで
Logをs3とredshiftに格納する仕組み
- 103 users
- www.slideshare.net/slideshow
- テクノロジー
- 2013/05/22
1. LogをS3と Hive Redshi/ に格納する仕組み 2013年5月22日株式会社ゆめみ森下健 mokemokechicken@twi;er 1 2. 作るきっかけアプリケーションログをMySQLに保存している（調査目的） MySQLだとスケールしない S3やHadoop(Hive)上に保存しよう（スケールしそう） 2 １００〜２００Write/sec くらいでキツイ
- redshift
- aws
- s3
- fluentd
- hadoop
- log
- hive
- presentation
- MySQL
Amazon CTOに聞く、NoSQLデータベース「DynamoDB」がクラウドに何をもたらすのか？
- 103 users
- www.publickey1.jp
- テクノロジー
- 2012/03/02
Amazon Web Serviceが提供する、SSD上に構築された高速でスケーラブルなNoSQLデータベース「Amazon DynamoDB」が、東京データセンターでも利用可能になりました。 DynamoDBは、単にNoSQLの持つ高いスケーラビリティを提供するだけではなく、一貫性の制御が可能で、必要なスループット性能も自由に設定できるなど、従来のNoSQLとは一線を画す高性能を、メンテナンスなどの管理の手間をまったく必要とせずに提供するサービスです（関連記事「Amazonクラウド、SSD上の新NoSQLデータベース「DynamoDB」を公開。性能をダイナミックに上げ下げ可能」）。このDynamoDBの開発経緯や技術について、Amazonのバイスプレジデント兼最高技術責任者（CTO）ヴァーナー・ボーゲルズ（Werner Vogels）氏に、テレビ会議を通じてインタビューを行いました。
- NoSQL
- DynamoDB
- amazon
- AWS
- db
- データベース
- cloud
- database
- Amazon DynamoDB
Shibuya Perl Mongers
- 103 users
- shibuya.pm.org
- 暮らし
- 2005/04/14
We are a group of people dedicated to the encouragement of all things Perl-like in Shibuya. Shibuya Perl Mongersテクニカルトーク#18 Shibuya Perl Mongersテクニカルトーク#18 を2018年7月5日(木)に渋谷ヒカリエのDeNAさんの会議室をお借りして開催します。 Shibuya Perl Mongersテクニカルトーク#18 日時 - 2018年7月5日(木) 19:20-22:00 (19:00 開場) 会場 - 渋谷ヒカリエ21F DeNA本社（受付11F） (株式会社ディー・エヌ・エー) 料金 - 無料定員 - 120名事前登録 - http://shibuyapm.connpass.com/event/89357/ からお申し込みください。注
Yahoo!の異常検知フレームワーク"EGADS"
- 103 users
- takuti.me
- テクノロジー
- 2017/09/11
Yahoo!がOSSとして開発している異常検知フレームワーク "EGADS" (Extensible Generic Anomaly Detection System) について書いた次の論文を読んだ： Generic and Scalable Framework for Automated Time-series Anomaly Detection (KDD 2015) リアルタイムなデータをモデリングする種のアルゴリズムの実装とはどうあるべきなのか、という話は難しい。僕も異常検知や情報推薦のためのアルゴリズムをパッケージ化してみてはいるものの、時系列データの入力、モデリング、予測、出力といったコンポーネントをいかに切り分けて実装するかバッチとオンラインアルゴリズムのバランスをいかに取るかどこまで自動化して、どこにヒューリスティクスを取り入れる余地を残すかといった点は本当に悩ま
- monitoring
- 機械学習
- algorithm
- 異常検知
- アルゴリズム
- yahoo
- あとで読む
- データ
- hadoop
- 論文
資料を公開いたしました！（クックパッドの裏側見せます　in 大阪＆名古屋） - クックパッド開発者ブログ
- 103 users
- techlife.cookpad.com
- テクノロジー
- 2010/04/15
こんにちは。クックパッドのすみです。去る4/2,4/3に大阪と名古屋にて「クックパッドの開発の裏側見せます」と題して講演会を開かせて頂きました。当日は、技術部長の井原のほか、計3名のエンジニアがプレゼンさせて頂きました。当日の資料を公開いたしますので、是非ご覧くださいませ。最後に、大阪・名古屋の会場にご足労頂いた皆さま、本当にどうもありがとうございました！またお会いできますことを楽しみにしております。・清水雄太/毎日の料理を楽しみにするためのクックパッド流エンジニアライフ [slideshare id=3645164&doc=random-100405232603-phpapp01] ・佐々木達也/「Hadoopの活用事例　in クックパッド」 [slideshare id=3636819&doc=20100402hadoop-100404223254-phpapp01] ・
- cookpad
- hadoop
- 資料
- プレゼン
- クックパッド
- 開発
- 監視
- business
- あとで読む
- 運用
9月のはてなインターンシップを終えたまとめ - suztomoのはてなダイアリー
- 102 users
- suztomo.hatenadiary.org
- 暮らし
- 2008/09/29
今年から正式に初まった株式会社はてなのインターンシップには8月分と9月分があるのですが，僕は9月のインターンシップに参加してきました． 26日でインターンの期間が終わったのですが，それまでに撮影した写真などを織りまぜながら，次のインターンシップに参加するかもしれない人やはてなインターンの雰囲気が気になっている人へ向けてまとめてみたいと思います．写真には本文と関係のないものもあったりなかったり．やったこと前半の二週間ははてなで使われているJavaScriptフレームワーク(id:secondlife先生)やサーバの構成(id:stanaka先生)などの講義を聞き，毎日それに関する課題が出ます．はてなで動いているサーバを作る講義(id:maoe先生)と，それらをつなげてHadoopを動かす講義(id:stanaka先生)や大規模データ処理の講義(id:naoya先生, id:moteme
- hatena
- はてな
- intern
- インターン
- 1986s
- emacs
- event
コミュニティに非協力的な人への向きあい方 - 科学と非科学の迷宮
- 102 users
- shiumachi.hatenablog.com
- テクノロジー
- 2013/01/06
あけましておめでとうございます。一昨年は大晦日の夜は一人で過ごしながら hadoop のパッチを書いていましたが、昨年末は大晦日はおろか新年の元旦含めて年末年始ぶっ通しで仕事に追われてました。そんなわけでコミケもネットで眺めてひっそり楽しむ程度だったわけですが、一つ非常に印象に残ったツイートがありました。「「コミケ来場者は客」みたいな奴マジ来るな死ね！」とスタッフ暦＝半生の先輩に言うと決まって帰ってくる言葉は「教育して、仲間にする。新兵はいずれ古参兵になる。そうやってコミケは歴史を積み重ねて来たんだよ。」と言われます。　スタッフは皆が思っている以上に寛容で大きいぞ。 2012-12-30 16:03:53 via web 真偽のほどは分かりませんが、こうしたポリシーはコミュニティを長生きさせる上で非常に重要です。コミュニティが小さいうちは、お互いをきちんと理解している仲間だけ
第1回　分散処理を隠蔽し、大規模開発を可能に
- 102 users
- xtech.nikkei.com
- 暮らし
- 2011/03/28
筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス（
- hadoop
- asakusa
- 分散処理
- mapreduce
- バッチ
- 開発
- ITPro
- *あとで読む
- システム
ウェブ業界の15年、これからの10年 (Re ウェブアプリケーションサーバを複数台構成とか2010年代には流行らない) - kazuhoのメモ置き場
- 102 users
- kazuhooku.hatenadiary.org
- 暮らし
- 2009/12/27
先のエントリ (ウェブアプリケーションサーバを複数台構成とか2010年代には流行らない) ではボトムアップに煽った書き方をしたけど、自分がトップダウンでどういうふうに捉えているかについて。以下、あくまでも私見です。いわゆるネット業界は1990年代後半に始まってから15年くらいたったわけだけど、当初はマスメディア（静的コンテンツの配信）が業界の中心だったのが、パーソナライゼーションを経て、コミュニケーションツールへと変化してきた*1。それにあわせて技術的な面でも分化が進み、今ではデータベースとアプリケーションサーバと httpd っていう三層構成が一般的になっている*2。そもそも Apache って、モジュールをC言語で a-patchy に書いて動的コンテンツを作れるのが売りだったわけだけど、今じゃコモディティ化を通り越してレガシーソフトウェアの代表格。でもみんなあんまり困ってないの
- server
- web
- performance
- system
- 考察
- Apache
- インフラ
- 設計
- column
SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper
- 102 users
- chopl.in
- テクノロジー
- 2013/12/04
Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪前書きみんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ
- hive
- Hadoop
- sql
- HiveQL
- mapreduce
- tuning
- performance
- log
- tips
- map
受託プログラマの進路　〜アジャイルセールスと手塚モデル〜
- 102 users
- www.slideshare.net/slideshow
- テクノロジー
- 2011/12/12
This document introduces the author as a software engineer who works with Redmine, TestLink, and open source projects. It provides an overview of the author's background, interests which include Hadoop and database technologies, and links to the author's blog and social media profiles. The author signs off by noting they are available for any questions.Read less
- SIer
- システム開発
- agile
- プログラマ
- slideshare
- 開発
- programming
- Redmine
- slide
- 読みたい
10年間のプログラミングの変化といえばクラウド、型推論、リアクティブ - きしだのHatena
- 102 users
- nowokay.hatenablog.com
- テクノロジー
- 2018/01/08
この10年間のプログラミングの変化、というのが流れてきたのだけど、個人的にはクラウド、型推論付き静的型、リアクティブかなぁという風に思ってます。クラウド(とスマホ) 2008年にGoogle App Engineが出たり、最初のHadoopサミットが行われたり、ちょうど10年前に始まったとも言えるクラウドは、すでに流行ではなく常識になっています。いまや、クラウドを考えずにシステムを組むということはないんじゃないでしょうか。スマホもこの10年で広まり、端末にUI、データはクラウドということも当たり前になっています。 40%の視聴率をもった紅白で視聴者が同時投票するようなことも、AWSを使って危なげなく行えるようになっていますが、10年前にこのようなサービスをたった4時間だけ行うということはなかなか考えにくいもので、実現できるのも限られたベンダーだけだったと思います。けれどもいまではそれ
MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
- 101 users
- xtech.nikkei.com
- テクノロジー
- 2014/08/04
オープンソースソフトウエア（OSS）の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。現在のHadoopの状況をどのように見ているか？同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。（米Apacheソフトウエア財団が2013年10月に正式版をリリースした）スケジューラーの「YARN」によって、（Hadoopのストレージシステムである）「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、（DAG：Directed Acyclic Graph＝有向
- hadoop
- mapreduce
- Spark
- google
- Interview
- OSS
- *あとで読む
- db
クラウドの時代にはコミュニティがエンジニアの成長を支えていくのではないか
- 101 users
- www.publickey1.jp
- テクノロジー
- 2014/02/20
ちょうど一週間前の大雪が降った日に、翔泳社主催のイベント「Developers Summit 2014」（通称デブサミ2014）が開催されました。今回のデブサミでは、僕はAmazon Web Servicesの玉川さんと一緒に、基調講演「クラウドがもたらした多様な破壊と創造」に登壇していました。講演の内容は標題通り、クラウドによって、例えば従来型のSIや従来の労働集約的なシステム運用、パッケージソフトウェアといったものが破壊されつつあり、ソフトウェアのサービス化やビッグデータの活用といったものが創造されていくだろう、といったものです。この話の中で、創造されるものの最後に挙げたのが「活発なコミュニティによる個人の成長」というものでした。これまで、企業は社員の成長にある程度責任を持ち、OJTや仕事を通して教育機会を提供してきました。しかしクラウド時代には今まで以上に、コミュニティを通して
スキーマレスについてちょっと考えてみた - As a Futurist...
- 101 users
- blog.riywo.com
- テクノロジー
- 2012/04/27
このエントリはたぶんに煽り要素を含めていますが、意図的なものです。僕は NoSQL は素晴らしいと思います。さて、NoSQL なんて言葉に踊らされてる人は置いといて、最近 RDBMS 以外のデータストアというのが色々でてきてます。今時点で見渡す限りにおいては、安定性、耐障害性、パフォーマンス、情報量、開発者の慣れ、全体のバランスで言えば RDBMS にかなうものはないわけですが、今後どうなっていくかはまぁ分かりません。一方で、RDBMS がどうしても苦手とする分野というのは存在します。例えば 1 サーバに収まりきらない様な大容量データに対するバッチ処理、リアルタイムなランキング、アクティビティなどのフィード情報、そして構造化されたデータの取り扱い。何でもかんでも NoSQL に置き換えればいいなんて考えは現時点では到底受け入れがたいですが、例として挙げた様なピンポイントな部分ではそれに
- nosql
- mongodb
- mysql
- JSON
- redis
- database
- データベース
- hadoop
- RDBMS
- 考察
Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita
- 101 users
- qiita.com/hiroysato
- テクノロジー
- 2015/02/19
Embulk(エンバルク) (2016/10/05からロゴが変わりました。変更理由) Embulkのまとめ2ndを作ってます。 Embulk v0.11 でなにが変わるのか: ユーザーの皆様へをご一読ください。更新時にコメントを書くようにしました。変更内容に興味のある方は編集履歴をご覧ください。 2018年1月30日リリースのembulk 0.9からgemは提供されなくなりました。gem版は0.8.39までとなっています種類バージョンロゴの下のバージョンは開発版の最新バージョンを表しています。一般の方は0.9系を利用しましょう 2015年1月27日、Fluentdのメインコミッターの一人古橋さんが中心となって開発した、fluentdのバッチ版のようなツールEmbulk(エンバルク)がリリースされました。この記事は、Embulkってなに？、どんなプラグインがあるの？、どうやって独
- embulk
- fluentd
- あとで読む
- db
HadoopとMongoDBを活用したソーシャルアプリのログ解析
- 101 users
- www.slideshare.net/slideshow
- テクノロジー
- 2010/09/26
The document describes the structure of various user activity log collections stored in different databases. It includes collections for errors, access logs, attribute changes, status changes, and purchase charges with details on the fields captured for each user event.Read less
- hadoop
- mongodb
- 解析
- python
- ソーシャルアプリ
- アクセス
- analytics
- ログ
- slide
ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
- 101 users
- smrmkt.hatenablog.jp
- テクノロジー
- 2016/04/19
Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ
- ETL
- hadoop
- あとで読む
- ビッグデータ
- dwh
- DB
- datamining
- slideshare
- データ
「Javaの鉱脈」でJVMオプションの記事を書きました | さにあらず
- 101 users
- blog.satotaichi.info
- テクノロジー
- 2014/08/25
WEB+DB PRESS の Vol.82 に、かなり気合いの入った JVM オプションの記事を書いたので、是非読んで頂きたい。 2014/8/23 発売ですので、既に購入頂いてる方も多いと思います。電子書籍版もありますので物理的な媒体に興味がない方は PDF を買って下さい。 WEB+DB PRESS Vol.82@Gihyo Digital Publishing今回の記事における対象読者について#今回の記事は、ターゲットとして Java に余り時間をコミットしていないけども便利なので JVM 上で動くアプリケーションをウッカリ運用している人をイメージしながら書きました。例えば、OSS ものだと Hadoop や ZooKeeper、Lucene や Solr、商用製品だと Stash とか JIRA とか confluence とかそういうものですね。僕の観測範囲だと、PHP や
- jvm
- java
- GC
- 資料
steps to phantasien(2008-08-14) Netflix Prize 外野席
- 100 users
- bn.dodgson.org
- 暮らし
- 2008/08/13
"集合知プログラミング" という本が出たらしい. 私の積読には元本の "Programming Collective Intelligence" があって, 途中まで読んだまま放置していたら日本語訳が出てしまった. (オライリーのアンチパターンと命名.) 悔しいので本は処分. そのうち日本語版で続きを読もう.... 興味を持っていたのは推薦エンジン(協調フィルタ)だった. 私の中では検索エンジンに匹敵するウェブのハイテクという位置付けなんだけど, 草の根には普及しておらず悲しい. 検索エンジンでの Hyper Estraier や senna に相当する協調フィルタの立ち位置はデッドヒートが予想される...とだいぶ前から思ってるんだけど, いまのところ閑古鳥気味. まったく, 出し抜くだけの実力があればなあ. 先の皇帝ペンギン本では, 一章にさっそく協調フィルタが登場する. 読んでみると
本を読む GREE LabsでHadoopの話を聞いてきた
- 100 users
- emasaka.blog.fc2.com
- 暮らし
- 2008/11/27
GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて（太田一樹） Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい
- hadoop
- mapreduce
- gree
- 分散
- programming
- google
- 勉強会
- java
- 分散処理
- EC2
Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
- 100 users
- tech.preferred.jp
- 暮らし
- 2010/11/10
最近光麺にハマっている太田です。グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開 ? Publickeyで紹介されている、並列ログ解析向け言語「Sawzall」を試してみました。動かし方のドキュメントが少なかったので、紹介エントリを書いてみます。プロジェクトページドキュメント Sawzallについては、5年前に論文が発表されており一部概要を知ることは出来ましたが、先日実装がオープンソースで公開されました。論文の第一著者はUNIXやPlan9の開発者で知られるRob Pike氏です。 Interpreting the Data: Parallel Analysis with Sawzall MapReduceのOSS実装として「Hadoop」が良く知られていますが、Hadoop向けの言語としてはHiveやPig等が有名です。 Hive: MapRed
- mapreduce
- google
- hadoop
- programming
- analysis
- 分散処理
- ログ
- c言語
- オープンソース
- SQL
SQL でのデータ分析のススメ - peroli Developer's Blog
- 100 users
- peroli-tech.hatenablog.com
- テクノロジー
- 2016/09/02
2016 - 09 - 02 SQL でのデータ分析のススメ SQL 分析データ分析 list Tweet こんにちは, 開発部のはちやです. 今回は, 今やサービスを運営する会社であればどこでも行われているであろうデータ分析について, WEB開発者の方を対象に「 SQL でのデータ分析のススメ」と題してご紹介したいと思います. SQL でのデータ分析がおすすめな理由分析技術の進歩によりデータが比較的容易に取得/抽出できるようになった昨今, データ分析が以前に増して活発に行われるようになってきていると感じます. そんなこんなでデータ分析をしたいWEB開発者の方が増えてきているのではないでしょうか(僕はそうでした) しかし, 「データ分析したいけど, 何を使えばいいのかよくわからない」「何を学習すればいいのかよくわからない」というWEB開発者の方がいらっしゃると想像します(僕がそうでし
- SQL
- データ分析
- あとで読む
- MySQL
- 分析
- SELECT
- データ
- bigquery
- DeNA
- analytics
【インタビュー】ヤフーが日々蓄積するビッグデータの塊、3500台のHadoopで処理し地道に活用
- 99 users
- internet.watch.impress.co.jp
- テクノロジー
- 2013/09/17
- Hadoop
- yahoo
- ビッグデータ
- Yahoo!
- bigdata
- data
Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
- 99 users
- qiita.com/h_network21
- テクノロジー
- 2017/02/09
元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ
- java
- awesome
- library
- あとで読む
- ツール
- framework
- apache
- programming
分散型システム徹底入門 – Part 2. | POSTD
- 99 users
- postd.cc
- テクノロジー
- 2018/07/19
Cassandra 先ほど触れたCassandraは分散型のNoSQLデータベースで、CAP定理のAとP（可用性と分断耐性）の特性を基準に最終的な一貫性が確保されています。ただ、このように言ってしまうと少し誤解を招くかもしれません。というのも、実際のところCassandraの設定は非常に柔軟性が高く、可用性を犠牲にして強い一貫性を提供することもできるからです。ですが、そうした使用ケースは一般的ではありません。 Cassandraでは、コンシステントハッシュ法を使って、渡そうとするデータをクラスタのどのノードが管理するのかを決めています。そしてその際は、データを複製するノード数を示すレプリケーションファクタを設定します。注釈：レプリケーションファクタ＝3 挿入（キー、値） Cassandraのノード（コーディネータ） Cassandraのノードハッシュ（キー）＝2 ノード#2
もしもラムダの中で例外が発生したら（前編） - Taste of Tech Topics
- 99 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2014/04/15
ある日、 id:cero-t がJJUGの重鎮たちと話している中で、とある宿題をもらいましたとさ。「Java8のラムダの中で例外が発生したら、どうなるんだろう？」こんにちは、アキバです。もう皆さんはJava8を使ってみましたか？とりあえずインストールしてみた人！・・はーい　(おまえかという冗談はさておき、今回は、id:cero-t に代わって私が冒頭のお題を調べてみました。 1. SerialStreamで動かしたラムダで例外が発生したらまずは、小手調べにシングルスレッドの場合を見てみましょう。検査例外が発生するようなコードをラムダに書いてみると、コンパイルエラーになります。こんなコードです。 try (BufferedWriter writer = Files.newBufferedWriter(Paths.get(W_FILENAME))) { // writer.
- java8
- Java
- lambda
- exception
- programming
- id
- プログラミング
- 後で読む
いまさら聞けないKVSの常識をHbaseで身につける
- 98 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2012/02/27
いまさら聞けないKVSの常識をHbaseで身につける：ビッグデータ処理の常識をJavaで身につける（3）（1/3 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載ビッグデータの要！ KVSとは何なのか「KVS（Key-Value Store）」とは、Key値を指定してValue値の格納や取得を行う方式です。それに対して、RDBではキー（プライマリキー）が必須ではなく、逆に複数のカラムをセットしてキーにすることもできます。テーブル構造だけを見れば、KVSとRDBは似ています。例えば、RDBでプライマリキーと1つのBLOB型を持ったテーブルを作れば、KVSと同じような構造にもなります。しかし、RDBでKVSのまねごとをするのと、KVSとして
- kvs
- hbase
- ビッグデータ
- Java
- データベース
- RDB
- NoSQL
- tutorial
- hadoop
- CCC
Apache Spark チュートリアル
- 98 users
- www.slideshare.net/quintia
- テクノロジー
- 2015/05/01
2015-4-28に東北大学乾・岡崎研究室でおこなったチュートリアルの資料です。研究室にはHadoopクラスタ（CDH5.3）があります。実験や実験の前処理といったタスクでそのクラスタを利用するためのチュートリアル、という前提です。 (追記)PMIの計算はもっと実行効率がいい手順があります。という説明を入れ忘れてました。 (追記)PMI計算でIntと書いてある部分は全部Longの間違いでした。
- spark
- apacheSpark
- BigData
- Apache
- slide
- あとで読む
- OSS
- development
分散処理・コンテナなど、モダンなインフラにおける5つの問題点
- 98 users
- logmi.jp
- テクノロジー
- 2018/06/29
2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向けのQ＆Aフォーラム「teratail」の中で解決できない問題を解くため、一流エンジニアたちが一同に会して、プレゼンテーションやパネルディスカッションを行いました。トークセッション「分散処理とコンテナ化インフラの面白い関係」では、Treasure Dataの田籠聡氏が登場。コンテナや分散処理が用いられるモダンシステムの潮流と、その問題点を語ります。分散処理とコンテナ化インフラの面白い関係田籠聡氏（以下、田籠）：よろしくお願いします。本日は、ぼくが最近やっている分散システムと、コンテナ化されたシステムのことを含めて話します。英語で言うとContainerized
データビジネス・分析・開発に関して2014年に読んだ本 - About connecting the dots.
- 97 users
- smrmkt.hatenablog.jp
- テクノロジー
- 2014/12/27
年末なのでぼちぼち今年の振り返りをします．ちなみに去年のはこちら．データブジネス，データ分析，ソフトウェア開発の3カテゴリに分けて，それぞれについて上から読んでよかった順に並んでいます．データビジネス "超"分析の教科書 “超"分析の教科書 (日経BPムック) 作者: 日経ビッグデータ出版社/メーカー: 日経BP社発売日: 2014/11/17メディア: 単行本この商品を含むブログ (2件) を見る事例集として，非常によくまとまっていました．幅広い業種で典型的に使われるような手法とか問題とかがコンパクトにまとまっていて，実務でデータ分析をしている人ならみておいて損はないのではないでしょうか．内容は割と平易に書かれているので，データ分析専業じゃない人が読んでも割と読みやすく面白いと思います．アルゴリズムが世界を支配するアルゴリズムが世界を支配する (角川ＥＰＵＢ選書) 作者: クリス
- データ分析
- 本
- book
- books
- *あとで読む
Amazon EC2互換である意味
- 97 users
- xtech.nikkei.com
- 暮らし
- 2010/02/01
皆さんは「Eucalyptus（ユーカリプタス）」をご存じだろうか。米Amazon Web Servicesが提供するクラウド・コンピューティング・サービス「Amazon EC2」と同じAPI（アプリケーション・プログラミング・インタフェース）で仮想マシンが管理できるインフラ環境を構築するオープンソースソフトウエアだ。社内に「Amazon EC2互換環境」があると何がうれしいのか。ユーザーの声を元に考えてみたい。まず、Eucalyptusでいう「Amazon EC2と同じAPI」の意味を説明しよう。Amazon EC2では、仮想マシンの作成や起動、仮想ディスクイメージの作成といった管理タスクをコントロールするAPIを外部に公開している（Amazon EC2のAPIリスト）。外部の開発者はこのAPIを利用すると、Amazon EC2の仮想マシンを管理するツールを開発できる。ストレージサー
- eucalyptus
- EC2
- amazon
- クラウド
- amazon ec2
- cloud
- cloud computing
- api
- AmazonEC2
- oss