並び順

ブックマーク数

期間指定

  • から
  • まで

441 - 480 件 / 11471件

新着順 人気順

hadoopの検索結果441 - 480 件 / 11471件

  • DBMSの世界はもうとっくに変革の嵐 | 独り言v6

    DBの世界に起こる変革 を見てびっくりするほどがっかりした。DBMSの世界はこれから変革が起こるどころが、もうすでに変革ががんがんに起こっていて、One Size Does Not Fit Allの時代だと言われて久しい。Oracle RDBMSだけの世界とかを見ていると、その変化が見えなくなってしまうことが多いだろう。しかしちょっとRDBMSを離れたら、現在はDBMS戦国時代であり、Oracle社もその有力なプレイヤーの一人である。 とりあえず現状を知りたいと思ったら、以下が非常に参考になる。 NoSQLの現状 50以上のソフトウェアがひしめく市場、これを戦国時代と言わずしてなんだろうか。MongoDBあり、Hadoopあり、KVSあり、NewSQLあり・・・これが21世紀のDBMSの現状だ。 ちなみに先のサイトで話にあった「ジャーナルを書かないRDBMS」というのはつまりLog Str

    • 【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉

      こんにちはあんどう(@t_andou)です。 今回はKubernetesを使って並列処理させた記録です。 まだ「とりあえずそれっぽく動くまで試してみた」という段階で、kubernetesを理解できてはいないので自分用のメモを公開しているという認識でご覧ください。 間違っている部分や、よりスマートなやり方がありましたらご指摘いただけると幸いです。 この記事の概要 機械学習に使う特徴量の作成で1週間かかりそうな処理を10分くらいで終わらせられないかと考え、GKE(=GoogleのKubernetes環境)を使い試行錯誤した記録です。 今回は一部失敗して完了時間が1.5時間になったものの、設定を上手く出来れば15分程度で終わる見込みです。 対象読者 ・Kubernetesの概要は知っているくらいのレベルの人 ・KubernetesのJobを使った並列処理をしたい人 目次 この記事の概要 対象読者

        【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉
      • マネタイズとアウトプットを意識する~エンジニアの視点から考えるネットサービス:エンジニアブレークスルー#02レポート | gihyo.jp

        マネタイズとアウトプットを意識する~エンジニアの視点から考えるネットサービス:エンジニアブレークスルー#02レポート エンジニアがどのようにしてブレークスルーしていけるか エンジニアブレークスルーは、その名のとおり「エンジニアがどのようにブレークスルーしていけるか」をテーマに、株式会社ゼロスタートコミュニケーションズ 山崎徳之氏を中心にスタートした活動。10月7日に、スタートアップデイティングの一企画として第1回が開催され、今回初の単独開催として、第2回目開催の運びとなった。今回は二部構成で、一部がパネルディスカッション、二部がパネリストと参加者の交流を兼ねたエンジニア査定大会が実施された。 イベントの企画者でもあり、モデレータを務めた山崎氏。 エンジニアの視点から考えるネットサービス 今回のパネリストは以下の通り。 米林正明 氏(株式会社Abby) 閑歳孝子 氏(株式会社ユーザーローカル

          マネタイズとアウトプットを意識する~エンジニアの視点から考えるネットサービス:エンジニアブレークスルー#02レポート | gihyo.jp
        • Javaのマイクロベンチマークツール「JMH」 - Taste of Tech Topics

          本ブログの読者の皆様方におかれましては、JavaのArrayListとLinkedListの 実装の違いにより性能に差があることは、当然のように熟知のことと存じあげます。 しかし! 実際にいかほどの差があるのか、それを数値で説明できるという方はどれほどいらっしゃるでしょうか。 いきなり丁寧語の煽りでスタートしました @cero_t です。 そう、今日のテーマはマイクロベンチマークです。 たとえば、 文字列を + で結合すると遅い。 ArrayListの初期化時にはサイズを指定したほうが良い。 ArrayListはループ処理が得意、LinkedListは途中の追加が得意。 など、よくあるパフォーマンスのプラクティスについては既に知っているという方も多いと思うのですが 実際に何倍ぐらいの差なのか(どれぐらいのオーダーの差なのか)を数値で話すことができるという方は、 あまり多くないように思います

            Javaのマイクロベンチマークツール「JMH」 - Taste of Tech Topics
          • 検証ラボ - 目次:ITpro

            注目すべき製品や技術について,実際に細部にわたって検証・評価を行い,公正な観点からレポートする。現場ではやりたくてもできない,やるヒマがない,でも結果は知りたいテーマを取り上げる。 観点の絞り込みで設計レビューは改善できるか? 要件定義書や設計書のレビューでは、後工程での修正コストを低減させる「重大な指摘」を数多く挙げることが重要だ。その方法の一つとして、レビューの観点を絞り込むことが提唱されている。観点を絞り込むことで、重大な指摘はどれだけ増えるのか。レビューの研究者である森崎修司氏に、二つの検証結果を報告してもらった。 ウイルスを観察してみる ウイルスやワームはパソコンやサーバーの中でどのように動作するのか。その動きを目で見ることは,脅威を体感するという意味で意義がある。そこで,検証マシンを用意し,実際に感染させ,発症させ,その挙動を観察した。 KVS「Cassandra」の実力 デー

              検証ラボ - 目次:ITpro
            • 今更CAP定理で分散データストアの勉強を始めてみた - As a Futurist...

              長くなったので三行でまとめると CAP 定理を素人なりに調べてみた 分散データストアを CAP 定理で俯瞰してみた どのデータストア使うかの決定因子は CAP 定理的な視点の方がインタフェースとかより先 異論は認めるというか、専門知識ゼロなのでもっと正しい理解があればぜひ教えてくださいませ。 はじめに 僕は MySQL 厨なんですが、最近はやれ「MongoDB がいい」だの「HBase 最高」だのとよく聞きます。これら多種多様なデータストアを語る上で、「RDBMS VS NoSQL」みたいに問い合わせ言語の方式やデータ保存形式の違いで語るのは宗教論かなぁと僕は思ってます。単体プロセスのデータストアとしての特徴とか性能とかは正直なんでもいいかなぁと。 思うに、本質的に重要なのは MySQL の master-slave&sharding という Web で今までスタンダードに使われてきた分散

                今更CAP定理で分散データストアの勉強を始めてみた - As a Futurist...
              • データサイエンティストサミット 2013に参加してきた | DevelopersIO

                データサイエンティストサミット:プログラム 『ビッグデータ』と共に昨今業界を賑わせているフレーズとして『データサイエンティスト』というものがあります。用語の意味や解説などは下記リンクなどを参考頂くとして、世間の見方としては様々ある模様です。AWS等クラウド全盛の昨今、ビッグデータ及びデータサイエンティストと呼ばれる役割や要素がその重要さを増しているのはまず間違いないと言って良いでしょう。 データサイエンス - Wikipedia 一般社団法人 データサイエンティスト協会 脚光浴びるデータ・サイエンティストってどんな人? : 日経BizGate 「ITエンジニアのためのデータサイエンティスト養成講座」最新記事一覧 - ITmedia Keywords 「あいつ・・・なにやってるの?」データサイエンティストを殺す4つの環境 - dataminer.me 今世紀最も熱い職業「データサイエンティス

                  データサイエンティストサミット 2013に参加してきた | DevelopersIO
                • mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

                  こんにちは.最近ピクルス作りで精神統一をしている,たんぽぽグループ解析チームの石川有です. このブログではお馴染みのたんぽぽグループですが,"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています.その中で解析チームは,データ解析基盤の構築,データマイニング,データ解析の社内コンサルティングを行ない技術からの改善を担当しています. 今回の記事では,mixi における解析基盤について簡単に触れたあと,その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの2点について書きます. mixi の解析基盤 まずは解析環境について,簡単にお話します.2012-08 現在 mixi では,主な解析用のツールとしては,Apache Hadoop, Hive を利用しています.またあわせて,自分など一部の人は,

                    mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
                  • Logをs3とredshiftに格納する仕組み

                    1. LogをS3と Hive Redshi/ に 格納する仕組み 2013年5月22日 株式会社ゆめみ 森下 健 mokemokechicken@twi;er 1 2. 作るきっかけ アプリケーションログをMySQLに保存している (調査目的) MySQLだとスケールしない S3やHadoop(Hive)上に保存しよう (スケールしそう) 2 100〜200Write/sec くらいでキツイ

                      Logをs3とredshiftに格納する仕組み
                    • Amazon CTOに聞く、NoSQLデータベース「DynamoDB」がクラウドに何をもたらすのか?

                      Amazon Web Serviceが提供する、SSD上に構築された高速でスケーラブルなNoSQLデータベース「Amazon DynamoDB」が、東京データセンターでも利用可能になりました。 DynamoDBは、単にNoSQLの持つ高いスケーラビリティを提供するだけではなく、一貫性の制御が可能で、必要なスループット性能も自由に設定できるなど、従来のNoSQLとは一線を画す高性能を、メンテナンスなどの管理の手間をまったく必要とせずに提供するサービスです(関連記事「Amazonクラウド、SSD上の新NoSQLデータベース「DynamoDB」を公開。性能をダイナミックに上げ下げ可能」)。 このDynamoDBの開発経緯や技術について、Amazonのバイスプレジデント兼最高技術責任者(CTO) ヴァーナー・ボーゲルズ(Werner Vogels)氏に、テレビ会議を通じてインタビューを行いました。

                        Amazon CTOに聞く、NoSQLデータベース「DynamoDB」がクラウドに何をもたらすのか?
                      • Shibuya Perl Mongers

                        We are a group of people dedicated to the encouragement of all things Perl-like in Shibuya. Shibuya Perl Mongersテクニカルトーク#18 Shibuya Perl Mongersテクニカルトーク#18 を2018年7月5日(木)に渋谷ヒカリエのDeNAさんの会議室をお借りして開催します。 Shibuya Perl Mongersテクニカルトーク#18 日時 - 2018年7月5日(木) 19:20-22:00 (19:00 開場) 会場 - 渋谷ヒカリエ21F DeNA本社(受付11F) (株式会社ディー・エヌ・エー) 料金 - 無料 定員 - 120名 事前登録 - http://shibuyapm.connpass.com/event/89357/ からお申し込みください。 注

                        • Yahoo!の異常検知フレームワーク"EGADS"

                          Yahoo!がOSSとして開発している異常検知フレームワーク "EGADS" (Extensible Generic Anomaly Detection System) について書いた次の論文を読んだ: Generic and Scalable Framework for Automated Time-series Anomaly Detection (KDD 2015) リアルタイムなデータをモデリングする種のアルゴリズムの実装とはどうあるべきなのか、という話は難しい。 僕も異常検知や情報推薦のためのアルゴリズムをパッケージ化してみてはいるものの、 時系列データの入力、モデリング、予測、出力といったコンポーネントをいかに切り分けて実装するか バッチとオンラインアルゴリズムのバランスをいかに取るか どこまで自動化して、どこにヒューリスティクスを取り入れる余地を残すか といった点は本当に悩ま

                            Yahoo!の異常検知フレームワーク"EGADS"
                          • 資料を公開いたしました!(クックパッドの裏側見せます in 大阪&名古屋) - クックパッド開発者ブログ

                            こんにちは。クックパッドのすみです。 去る4/2,4/3に大阪と名古屋にて「クックパッドの開発の裏側見せます」と題して講演会を開かせて頂きました。 当日は、技術部長の井原のほか、計3名のエンジニアがプレゼンさせて頂きました。 当日の資料を公開いたしますので、是非ご覧くださいませ。 最後に、大阪・名古屋の会場にご足労頂いた皆さま、 本当にどうもありがとうございました! またお会いできますことを楽しみにしております。 ・清水雄太/毎日の料理を楽しみにするためのクックパッド流エンジニアライフ [slideshare id=3645164&doc=random-100405232603-phpapp01] ・佐々木達也/「Hadoopの活用事例 in クックパッド」 [slideshare id=3636819&doc=20100402hadoop-100404223254-phpapp01] ・

                              資料を公開いたしました!(クックパッドの裏側見せます in 大阪&名古屋) - クックパッド開発者ブログ
                            • 9月のはてなインターンシップを終えたまとめ - suztomoのはてなダイアリー

                              今年から正式に初まった株式会社はてなのインターンシップには8月分と9月分があるのですが,僕は9月のインターンシップに参加してきました. 26日でインターンの期間が終わったのですが,それまでに撮影した写真などを織りまぜながら,次のインターンシップに参加するかもしれない人やはてなインターンの雰囲気が気になっている人へ向けてまとめてみたいと思います. 写真には本文と関係のないものもあったりなかったり. やったこと 前半の二週間ははてなで使われているJavaScriptフレームワーク(id:secondlife先生)やサーバの構成(id:stanaka先生)などの講義を聞き,毎日それに関する課題が出ます.はてなで動いているサーバを作る講義(id:maoe先生)と,それらをつなげてHadoopを動かす講義(id:stanaka先生)や大規模データ処理の講義(id:naoya先生, id:moteme

                                9月のはてなインターンシップを終えたまとめ - suztomoのはてなダイアリー
                              • コミュニティに非協力的な人への向きあい方 - 科学と非科学の迷宮

                                あけましておめでとうございます。 一昨年は大晦日の夜は一人で過ごしながら hadoop のパッチを書いていましたが、昨年末は大晦日はおろか新年の元旦含めて年末年始ぶっ通しで仕事に追われてました。 そんなわけでコミケもネットで眺めてひっそり楽しむ程度だったわけですが、一つ非常に印象に残ったツイートがありました。 「 「コミケ来場者は客」 みたいな奴マジ来るな死ね!」とスタッフ暦=半生の先輩に言うと決まって帰ってくる言葉は 「教育して、仲間にする。新兵はいずれ古参兵になる。そうやってコミケは歴史を積み重ねて来たんだよ。」と言われます。 スタッフは皆が思っている以上に寛容で大きいぞ。 2012-12-30 16:03:53 via web 真偽のほどは分かりませんが、こうしたポリシーはコミュニティを長生きさせる上で非常に重要です。 コミュニティが小さいうちは、お互いをきちんと理解している仲間だけ

                                • 第1回 分散処理を隠蔽し、大規模開発を可能に

                                  筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。 盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス(

                                    第1回 分散処理を隠蔽し、大規模開発を可能に
                                  • ウェブ業界の15年、これからの10年 (Re ウェブアプリケーションサーバを複数台構成とか2010年代には流行らない) - kazuhoのメモ置き場

                                    先のエントリ (ウェブアプリケーションサーバを複数台構成とか2010年代には流行らない) ではボトムアップに煽った書き方をしたけど、自分がトップダウンでどういうふうに捉えているかについて。以下、あくまでも私見です。 いわゆるネット業界は1990年代後半に始まってから15年くらいたったわけだけど、当初はマスメディア(静的コンテンツの配信)が業界の中心だったのが、パーソナライゼーションを経て、コミュニケーションツールへと変化してきた*1。 それにあわせて技術的な面でも分化が進み、今ではデータベースとアプリケーションサーバと httpd っていう三層構成が一般的になっている*2。 そもそも Apache って、モジュールをC言語で a-patchy に書いて動的コンテンツを作れるのが売りだったわけだけど、今じゃコモディティ化を通り越してレガシーソフトウェアの代表格。でもみんなあんまり困ってないの

                                      ウェブ業界の15年、これからの10年 (Re ウェブアプリケーションサーバを複数台構成とか2010年代には流行らない) - kazuhoのメモ置き場
                                    • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

                                      Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

                                      • 受託プログラマの進路 〜アジャイルセールスと手塚モデル〜

                                        This document introduces the author as a software engineer who works with Redmine, TestLink, and open source projects. It provides an overview of the author's background, interests which include Hadoop and database technologies, and links to the author's blog and social media profiles. The author signs off by noting they are available for any questions.Read less

                                          受託プログラマの進路 〜アジャイルセールスと手塚モデル〜
                                        • 10年間のプログラミングの変化といえばクラウド、型推論、リアクティブ - きしだのHatena

                                          この10年間のプログラミングの変化、というのが流れてきたのだけど、個人的にはクラウド、型推論付き静的型、リアクティブかなぁという風に思ってます。 クラウド(とスマホ) 2008年にGoogle App Engineが出たり、最初のHadoopサミットが行われたり、ちょうど10年前に始まったとも言えるクラウドは、すでに流行ではなく常識になっています。 いまや、クラウドを考えずにシステムを組むということはないんじゃないでしょうか。 スマホもこの10年で広まり、端末にUI、データはクラウドということも当たり前になっています。 40%の視聴率をもった紅白で視聴者が同時投票するようなことも、AWSを使って危なげなく行えるようになっていますが、10年前にこのようなサービスをたった4時間だけ行うということはなかなか考えにくいもので、実現できるのも限られたベンダーだけだったと思います。けれどもいまではそれ

                                            10年間のプログラミングの変化といえばクラウド、型推論、リアクティブ - きしだのHatena
                                          • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

                                            オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向

                                              MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
                                            • クラウドの時代にはコミュニティがエンジニアの成長を支えていくのではないか

                                              ちょうど一週間前の大雪が降った日に、翔泳社主催のイベント「Developers Summit 2014」(通称デブサミ2014)が開催されました。今回のデブサミでは、僕はAmazon Web Servicesの玉川さんと一緒に、基調講演「クラウドがもたらした多様な破壊と創造」に登壇していました。 講演の内容は標題通り、クラウドによって、例えば従来型のSIや従来の労働集約的なシステム運用、パッケージソフトウェアといったものが破壊されつつあり、ソフトウェアのサービス化やビッグデータの活用といったものが創造されていくだろう、といったものです。 この話の中で、創造されるものの最後に挙げたのが「活発なコミュニティによる個人の成長」というものでした。 これまで、企業は社員の成長にある程度責任を持ち、OJTや仕事を通して教育機会を提供してきました。しかしクラウド時代には今まで以上に、コミュニティを通して

                                                クラウドの時代にはコミュニティがエンジニアの成長を支えていくのではないか
                                              • スキーマレスについてちょっと考えてみた - As a Futurist...

                                                このエントリはたぶんに煽り要素を含めていますが、意図的なものです。僕は NoSQL は素晴らしいと思います。 さて、NoSQL なんて言葉に踊らされてる人は置いといて、最近 RDBMS 以外のデータストアというのが色々でてきてます。今時点で見渡す限りにおいては、安定性、耐障害性、パフォーマンス、情報量、開発者の慣れ、全体のバランスで言えば RDBMS にかなうものはないわけですが、今後どうなっていくかはまぁ分かりません。 一方で、RDBMS がどうしても苦手とする分野というのは存在します。例えば 1 サーバに収まりきらない様な大容量データに対するバッチ処理、リアルタイムなランキング、アクティビティなどのフィード情報、そして構造化されたデータの取り扱い。何でもかんでも NoSQL に置き換えればいいなんて考えは現時点では到底受け入れがたいですが、例として挙げた様なピンポイントな部分ではそれに

                                                  スキーマレスについてちょっと考えてみた - As a Futurist...
                                                • Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita

                                                  Embulk(エンバルク) (2016/10/05からロゴが変わりました。変更理由) Embulkのまとめ2ndを作ってます。 Embulk v0.11 でなにが変わるのか: ユーザーの皆様へ をご一読ください。 更新時にコメントを書くようにしました。変更内容に興味のある方は編集履歴をご覧ください。 2018年1月30日リリースのembulk 0.9からgemは提供されなくなりました。gem版は0.8.39までとなっています 種類 バージョン ロゴの下のバージョンは開発版の最新バージョンを表しています。一般の方は0.9系を利用しましょう 2015年1月27日、Fluentdのメインコミッターの一人古橋さんが中心となって開発した、fluentdのバッチ版のようなツールEmbulk(エンバルク)がリリースされました。 この記事は、Embulkってなに?、どんなプラグインがあるの?、どうやって独

                                                    Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita
                                                  • HadoopとMongoDBを活用したソーシャルアプリのログ解析

                                                    The document describes the structure of various user activity log collections stored in different databases. It includes collections for errors, access logs, attribute changes, status changes, and purchase charges with details on the fields captured for each user event.Read less

                                                      HadoopとMongoDBを活用したソーシャルアプリのログ解析
                                                    • ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.

                                                      Hadoopが出てきてから10年,ビッグデータという言葉が流行り始めてからでも5年以上が経ち,2016年現在では,Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります.とはいえ巷に出回っているビッグデータ活用事例というのは,綺麗な上澄みだけをすくい取っていたり,リリースしたてのピカピカのときに発表されていたり,というのが大半で,それが結構個人的に気に食わなかったりします. ビッグデータが当たり前のものになっている現在においては,単に作っただけで価値があるというフェーズは過ぎ去っていて,継続的に運用しながら価値を生み出し続けることが,非常に重要な問題だと思います.特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく,またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで,そういった変化に対応していくためには,また別のスキルが必要とされるのではないでしょ

                                                        ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
                                                      • 「Javaの鉱脈」でJVMオプションの記事を書きました | さにあらず

                                                        WEB+DB PRESS の Vol.82 に、かなり気合いの入った JVM オプションの記事を書いたので、是非読んで頂きたい。 2014/8/23 発売ですので、既に購入頂いてる方も多いと思います。 電子書籍版もありますので物理的な媒体に興味がない方は PDF を買って下さい。 WEB+DB PRESS Vol.82@Gihyo Digital Publishing今回の記事における対象読者について#今回の記事は、ターゲットとして Java に余り時間をコミットしていないけども便利なので JVM 上で動くアプリケーションをウッカリ運用している人をイメージしながら書きました。 例えば、OSS ものだと Hadoop や ZooKeeper、Lucene や Solr、商用製品だと Stash とか JIRA とか confluence とかそういうものですね。 僕の観測範囲だと、PHP や

                                                          「Javaの鉱脈」でJVMオプションの記事を書きました | さにあらず
                                                        • steps to phantasien(2008-08-14) Netflix Prize 外野席

                                                          "集合知プログラミング" という本が出たらしい. 私の積読には元本の "Programming Collective Intelligence" があって, 途中まで読んだまま放置していたら日本語訳が出てしまった. (オライリーのアンチパターンと命名.) 悔しいので本は処分. そのうち日本語版で続きを読もう.... 興味を持っていたのは推薦エンジン(協調フィルタ)だった. 私の中では検索エンジンに匹敵するウェブのハイテクという位置付けなんだけど, 草の根には普及しておらず悲しい. 検索エンジンでの Hyper Estraier や senna に相当する協調フィルタの立ち位置は デッドヒートが予想される...とだいぶ前から思ってるんだけど, いまのところ閑古鳥気味. まったく, 出し抜くだけの実力があればなあ. 先の皇帝ペンギン本では, 一章にさっそく協調フィルタが登場する. 読んでみると

                                                          • 本を読む GREE LabsでHadoopの話を聞いてきた

                                                            GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。 発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。 プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて(太田一樹) Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい

                                                            • Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog

                                                              最近光麺にハマっている太田です。 グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開 ? Publickeyで紹介されている、並列ログ解析向け言語「Sawzall」を試してみました。動かし方のドキュメントが少なかったので、紹介エントリを書いてみます。 プロジェクトページ ドキュメント Sawzallについては、5年前に論文が発表されており一部概要を知ることは出来ましたが、先日実装がオープンソースで公開されました。論文の第一著者はUNIXやPlan9の開発者で知られるRob Pike氏です。 Interpreting the Data: Parallel Analysis with Sawzall MapReduceのOSS実装として「Hadoop」が良く知られていますが、Hadoop向けの言語としてはHiveやPig等が有名です。 Hive: MapRed

                                                                Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
                                                              • SQL でのデータ分析のススメ - peroli Developer's Blog

                                                                2016 - 09 - 02 SQL でのデータ分析のススメ SQL 分析 データ分析 list Tweet こんにちは, 開発部のはちやです. 今回は, 今やサービスを運営する会社であればどこでも行われているであろうデータ分析について, WEB開発者の方を対象に 「 SQL でのデータ分析のススメ」と題してご紹介したいと思います. SQL でのデータ分析がおすすめな理由 分析技術の進歩によりデータが比較的容易に取得/抽出できるようになった昨今, データ分析が以前に増して活発に行われるようになってきていると感じます. そんなこんなでデータ分析をしたいWEB開発者の方が増えてきているのではないでしょうか(僕はそうでした) しかし, 「データ分析したいけど, 何を使えばいいのかよくわからない」「何を学習すればいいのかよくわからない」というWEB開発者の方がいらっしゃると想像します(僕がそうでし

                                                                  SQL でのデータ分析のススメ - peroli Developer's Blog
                                                                • 【インタビュー】ヤフーが日々蓄積するビッグデータの塊、3500台のHadoopで処理し地道に活用

                                                                  • Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita

                                                                    元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ

                                                                      Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
                                                                    • 分散型システム徹底入門 – Part 2. | POSTD

                                                                      Cassandra 先ほど触れたCassandraは分散型のNoSQLデータベースで、CAP定理のAとP(可用性と分断耐性)の特性を基準に最終的な一貫性が確保されています。ただ、このように言ってしまうと少し誤解を招くかもしれません。というのも、実際のところCassandraの設定は非常に柔軟性が高く、可用性を犠牲にして強い一貫性を提供することもできるからです。ですが、そうした使用ケースは一般的ではありません。 Cassandraでは、 コンシステントハッシュ法 を使って、渡そうとするデータをクラスタのどのノードが管理するのかを決めています。そしてその際は、データを複製するノード数を示す レプリケーションファクタ を設定します。 注釈: レプリケーションファクタ=3 挿入(キー、値) Cassandraのノード(コーディネータ) Cassandraのノード ハッシュ(キー)=2 ノード#2

                                                                        分散型システム徹底入門 – Part 2. | POSTD
                                                                      • もしもラムダの中で例外が発生したら(前編) - Taste of Tech Topics

                                                                        ある日、 id:cero-t がJJUGの重鎮たちと話している中で、とある宿題をもらいましたとさ。 「Java8のラムダの中で例外が発生したら、どうなるんだろう?」 こんにちは、アキバです。 もう皆さんはJava8を使ってみましたか? とりあえずインストールしてみた人! ・・はーい (おまえか という冗談はさておき、 今回は、id:cero-t に代わって私が冒頭のお題を調べてみました。 1. SerialStreamで動かしたラムダで例外が発生したら まずは、小手調べにシングルスレッドの場合を見てみましょう。 検査例外が発生するようなコードをラムダに書いてみると、コンパイルエラーになります。 こんなコードです。 try (BufferedWriter writer = Files.newBufferedWriter(Paths.get(W_FILENAME))) { // writer.

                                                                          もしもラムダの中で例外が発生したら(前編) - Taste of Tech Topics
                                                                        • いまさら聞けないKVSの常識をHbaseで身につける

                                                                          いまさら聞けないKVSの常識をHbaseで身につける:ビッグデータ処理の常識をJavaで身につける(3)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 ビッグデータの要! KVSとは何なのか 「KVS(Key-Value Store)」とは、Key値を指定してValue値の格納や取得を行う方式です。それに対して、RDBではキー(プライマリキー)が必須ではなく、逆に複数のカラムをセットしてキーにすることもできます。 テーブル構造だけを見れば、KVSとRDBは似ています。例えば、RDBでプライマリキーと1つのBLOB型を持ったテーブルを作れば、KVSと同じような構造にもなります。しかし、RDBでKVSのまねごとをするのと、KVSとして

                                                                            いまさら聞けないKVSの常識をHbaseで身につける
                                                                          • Apache Spark チュートリアル

                                                                            2015-4-28に東北大学 乾・岡崎研究室でおこなったチュートリアルの資料です。 研究室にはHadoopクラスタ(CDH5.3)があります。実験や実験の前処理といったタスクでそのクラスタを利用するためのチュートリアル、という前提です。 (追記)PMIの計算はもっと実行効率がいい手順があります。という説明を入れ忘れてました。 (追記)PMI計算でIntと書いてある部分は全部Longの間違いでした。

                                                                              Apache Spark チュートリアル
                                                                            • 分散処理・コンテナなど、モダンなインフラにおける5つの問題点

                                                                              2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向けのQ&Aフォーラム「teratail」の中で解決できない問題を解くため、一流エンジニアたちが一同に会して、プレゼンテーションやパネルディスカッションを行いました。トークセッション「分散処理とコンテナ化インフラの面白い関係」では、Treasure Dataの田籠聡氏が登場。コンテナや分散処理が用いられるモダンシステムの潮流と、その問題点を語ります。 分散処理とコンテナ化インフラの面白い関係 田籠聡氏(以下、田籠):よろしくお願いします。本日は、ぼくが最近やっている分散システムと、コンテナ化されたシステムのことを含めて話します。 英語で言うとContainerized

                                                                                分散処理・コンテナなど、モダンなインフラにおける5つの問題点
                                                                              • データビジネス・分析・開発に関して2014年に読んだ本 - About connecting the dots.

                                                                                年末なのでぼちぼち今年の振り返りをします.ちなみに去年のはこちら. データブジネス,データ分析,ソフトウェア開発の3カテゴリに分けて,それぞれについて上から読んでよかった順に並んでいます. データビジネス "超"分析の教科書 “超"分析の教科書 (日経BPムック) 作者: 日経ビッグデータ出版社/メーカー: 日経BP社発売日: 2014/11/17メディア: 単行本この商品を含むブログ (2件) を見る事例集として,非常によくまとまっていました.幅広い業種で典型的に使われるような手法とか問題とかがコンパクトにまとまっていて,実務でデータ分析をしている人ならみておいて損はないのではないでしょうか.内容は割と平易に書かれているので,データ分析専業じゃない人が読んでも割と読みやすく面白いと思います. アルゴリズムが世界を支配する アルゴリズムが世界を支配する (角川EPUB選書) 作者: クリス

                                                                                  データビジネス・分析・開発に関して2014年に読んだ本 - About connecting the dots.
                                                                                • Amazon EC2互換である意味

                                                                                  皆さんは「Eucalyptus(ユーカリプタス)」をご存じだろうか。米Amazon Web Servicesが提供するクラウド・コンピューティング・サービス「Amazon EC2」と同じAPI(アプリケーション・プログラミング・インタフェース)で仮想マシンが管理できるインフラ環境を構築するオープンソースソフトウエアだ。社内に「Amazon EC2互換環境」があると何がうれしいのか。ユーザーの声を元に考えてみたい。 まず、Eucalyptusでいう「Amazon EC2と同じAPI」の意味を説明しよう。Amazon EC2では、仮想マシンの作成や起動、仮想ディスクイメージの作成といった管理タスクをコントロールするAPIを外部に公開している(Amazon EC2のAPIリスト)。外部の開発者はこのAPIを利用すると、Amazon EC2の仮想マシンを管理するツールを開発できる。 ストレージサー

                                                                                    Amazon EC2互換である意味