タグ

2011年5月19日のブックマーク (12件)

  • Hadoop and MySQL Integration

    tomity
    tomity 2011/05/19
  • Tools for Moving from an SQL Database to Hadoop - DZone

    Sqoop, cascading.jdbc, and cascading-dbmigrate. Sqoop Cloudera knows Hadoop - that's for sure.  Doug Cutting, who created Hadoop, now works for Cloudera.  Sqoop is a FOSS tool that was contributed to the Apache Hadoop project.  It takes your database table and automatically generates the necessary classes that represent the rows from the table.  It finds the most efficient way to divide portions o

    Tools for Moving from an SQL Database to Hadoop - DZone
    tomity
    tomity 2011/05/19
  • DeNAによる大規模なMySQLノンストップ運用の裏側にある、フェイルオーバー自動化ツール

    4月11日から米サンタクララで行われた「MySQL Conference & Expo 2011」。このイベントでDeNAの松信嘉範(まつのぶよしのり)氏が、同社の大規模なMySQLの運用を支えている技術とツールについてのセッション「Automated, Non-Stop MySQL Operations and Failover」を行いました。 プレゼンテーションの中で、社内で利用しているフェイルオーバーの自動化ツールをオープンソース化することにも触れています(英語のドキュメントも作成中とのこと)。 MySQLの大規模運用における自動フェイルオーバーは、特にクラウドでのMySQLの利用が増えるにつれてニーズが高まる分野と思われます。セッションのスライドが公開されていますので、そのポイントを紹介していきます。 自動化されたノンストップなMySQLの運用 ソーシャルゲームでは高可用性が強く求

    DeNAによる大規模なMySQLノンストップ運用の裏側にある、フェイルオーバー自動化ツール
    tomity
    tomity 2011/05/19
  • Publickey - Enterprise IT × Cloud Computing × Web Technology / Blog

    2024-8-14 ガートナージャパンが「日における未来志向型インフラ・テクノロジのハイプ・サイクル:2024年」発表。Web3NFTは幻滅期、生成AIは過度な期待、汎用AIは黎明期 2024-8-14 企業にとって、生成AIへの投資を正当化することが課題に。ガートナーが予測。2025年末までに検証プロジェクトの3割が放棄されると 2024-8-13 Excel上でWebAssemblyPythonを実行可能にするアドオン「Anaconda Code」が登場 2024-8-13 オープンソースとは違う新しい取り組み「Fair Source」登場。ビジネスの持続性とソースコード公開の両立を目指す 2024-8-9 ブラウザテスト自動化のPuppeteerがFirefox正式サポート、新標準のWebDriver BiDi対応で。これでChromeとFirefoxに両方対応に 2024-8

    tomity
    tomity 2011/05/19
  • 次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

    The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ

    次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
    tomity
    tomity 2011/05/19
  • 見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop(ハドゥープ)は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。 このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp
    tomity
    tomity 2011/05/19
  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

    tomity
    tomity 2011/05/19
  • Hadoop + Luceneで分散インデクシング - moratorium

    Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

    tomity
    tomity 2011/05/19
  • 本を読む GREE LabsでHadoopの話を聞いてきた

    GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。 発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。 プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて(太田一樹) Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい

    tomity
    tomity 2011/05/19
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
    tomity
    tomity 2011/05/19
  • NOSQLの新顔、分散KVS「okuyama」の機能

    NOSQLについて解説した前回の記事は、いかがだったでしょうか。今後のアプリケーションでは、増え続けるデータを扱うことが非常に多くなると思います。前回の記事が、こうしたケースに適した新たなストレージの1つとして、NOSQLを理解するきっかけになっていたら幸いです。 連載2回目の今回は、NOSQLの1つである「okuyama」の全体概要と、機能的な特徴を紹介します。 1. 「okuyama」の概要 okuyamaは、まだ聞きなれない方も多いかと思いますが、筆者が開発している分散キー・バリュー・ストアです。2009年12月ごろから開発を始めました。現在はSourceforge.jpにて公開しています。もともとは学習を兼ねて作成したため、一部のログ・ライブラリなどを除き、すべて1から実装しました。2010年1月にファースト・リリースを行い、現在はバージョン0.8.6となっています。 以降は、ok

    tomity
    tomity 2011/05/19
  • / WSJ日本版 - jp.WSJ.com - Wsj.com

    アパラチコラで過ごす優雅な時間 メキシコ湾沿いの入り江に面した米フロリダ州の小さな町アパラチコラ。こじんまりした海辺のホテルに宿泊し、バーで新鮮なシーフードを味わえるほか、地ビールの醸造所もある。綿花や漁業で栄えたこの町には、グリークリバイバル(ギリシャ建築への回帰)様式の優雅な住宅が散見される。数キロの沖合に浮かぶセントジョージ島には白い砂浜が広がる。

    tomity
    tomity 2011/05/19