タグ

Hadoopに関するnobusueのブックマーク (212)

  • ノーチラス、Asakusa FrameworkのPaaS「Node0 DBR」を開始

    ノーチラス・テクノロジーズは2013年4月16日、分散バッチ処理ソフト「Hadoop」を使って基幹系バッチ処理を実行するフレームワーク「Asakusa Framework」のPaaS(プラットフォーム・アズ・ア・サービス)である「Node0 DBR」を開始した。 ユーザーはIDE(統合開発環境)からプログラムをPaaS上に展開するだけで、HadoopとAsakusa Frameworkを使ったバッチ処理が実行できる。バックエンドのITインフラには、「Amazon Web Services(AWS)」を使用する。 サービス名称にあるDBRは、「Distributed Batch Runtime(分散バッチ実行環境)」の略。「Hadoopのような分散処理基盤はセットアップや運用に労力が必要なので、ユーザー企業が自前でシステムを構築、運用するのは難しい」(ノーチラスの神林飛志社長)と考え、Paa

    ノーチラス、Asakusa FrameworkのPaaS「Node0 DBR」を開始
  • 西鉄ストア、Hadoopベースの基幹系システムがアマゾン上で稼働

    西鉄ストアが「Hadoop」と「Asakusa Framework」の組み合わせで基幹系システムを刷新し、2013年3月末から「Amazon Web Services(AWS)」上で稼働させている。開発元のノーチラス・テクノロジーズが2013年4月9日に発表した。Asakusa Frameworkは、オープンソースソフトウエア(OSS)の分散バッチ処理ソフトHadoopを使って基幹系バッチ処理を行うためのフレームワークである。 西鉄ストアが今回刷新したのは、売り上げの確定処理などを行う「売上・売掛金管理システム」、仕入・費用の計上や買掛金・未払い金などの債権管理・支払い管理を行う「仕入・買掛管理システム」、店舗内のテナントの売り上げや手数料を管理する「テナント管理システム」、個別原価法で損益を管理する「管理会計システム」の4つ。流通業としての同社の基幹系システムのほぼすべてを、Asakus

    西鉄ストア、Hadoopベースの基幹系システムがアマゾン上で稼働
  • Hadoopの内部動作を可視化できるソフト、AcroquestがOSSとして公開

    Acroquest Technologyは2012年11月9日、分散処理フレームワークのHadoopや、Hadoop上に構築する分散データベースのHBaseの内部動作を可視化するソフトウエア「halook」をオープンソースソフトウエア(OSS)として公開すると発表した。halookでは、WebブラウザからHadoopで構築したクラスター間のデータの偏りや、クラスターのタスクなどを確認できる。 Hadoopの分散ファイルシステムでは、クラスターを構成するDataNodeにデータを分散させて保存する。各クラスター内に保持しているデータは、できるだけ均等に保つことが望ましい。各クラスターに保存されているデータ量に偏りがあると、データ量が大きいクラスターに処理が集中してしまい、サーバーの台数を増やしても処理能力がスケールしない可能性があるためだ。 halookの「HDFSDataDistribut

    Hadoopの内部動作を可視化できるソフト、AcroquestがOSSとして公開
  • 日本を代表するビッグデータ技術者集団が米国で起業、米トレジャーデータがDWHクラウド開始

    写真2●トレジャーデータのメンバー。CEOは米レッドハットなどで勤務した芳川裕誠氏。CTOの太田一樹氏はプリファードインフラストラクチャーの前CTO。楽天で分散キー・バリュー・ストアのROMAを開発した西澤無我氏、OSSのログ収集ツールFluentdやメッセージングミドルウエアMessagePackを開発した古橋貞之氏、MongoDB JPの設立メンバー井上敬浩氏などが参加している 米トレジャーデータは2012年9月27日(米国時間)、データウエアハウス(DWH)のクラウドサービスである「Treasure Data Cloud Data Warehouse(DWH) Service」を開始したと発表した。「Hadoop」をベースにしたDWHだが、Hadoop独自の「MapReduce」ではなく、SQLのクエリーや「JDBC」「ODBC」などを使って蓄積したデータを活用できることが特徴。米国

    日本を代表するビッグデータ技術者集団が米国で起業、米トレジャーデータがDWHクラウド開始
  • Hadoopのスケーラビリティーを正しく理解する

    2、3年前は一部のWeb関連企業や最新技術に対するアンテナが敏感な企業、あるいは研究機関などの特定の層からの注目を集めていたHadoopが、今や多くの企業から関心を集めている。ITエンジニアだけではなく管理者層や経営者層にまでHadoopが広く知られるようになった。しかし筆者の感覚だと、Hadoopが「速い」「スケーラビリティーがある」といった断片的な特徴だけが独り歩きしており、能力を発揮できる領域やその理由については、Hadoopそのものの知名度ほどには正しい理解が浸透しているとは言えない印象である。 そもそも単純に「速い」とか、その理由を「分散システムだから」と安易に結論づけるのはHadoopに対する誤解を生む危険性がある。そこで連載第2回は、Hadoopがその能力を発揮できる領域を説明し、その処理速度やスケーラビリティーがどのように実現されているのかを解説する。 記事によって、Ha

    Hadoopのスケーラビリティーを正しく理解する
  • エンタープライズでOSSであるということ - 急がば回れ、選ぶなら近道

    エンタープライズのOSSについて こんなこと書くとOSSなモヒカンな人にぶん殴られるわけです。読み手の方で、自分はOSSを引っ張ってきたと自負されている方や組織のかたや、OSSは商用より無条件で優れていると思っている人は気分が悪くなるので、読まないでください。非常に個人的なメモですので。以下の考えは基的にソフトウェア・ビジネスとしての考えなので、自分で作って、自分で利用して、ムフフな人はあんまり考えてないので、そのつもりで読んでね。自分利用OSSはそれでいいと思うので、それでいいかと。 [まずAsakusaについて] まずAsakusaがなぜOSSかということを明確にしておきます。非常に単純です。Asakusaは様々な人の意見を集約してできています。これは別にNautilus-technologiesのメンバーというわけではなく、Hadoopコミュニティに参加した方の意見を相当取り入れて

    エンタープライズでOSSであるということ - 急がば回れ、選ぶなら近道
  • ノーチラス第二期の開始 - 急がば回れ、選ぶなら近道

    Nautilus-technologiesの第二期に入った(というべきですね)。 まずAsakusaをOSSにして、早いものでもう一年になる。当時はとにかく3月中に公開するぞ、というぎりぎりの中での公開だった。相当無理があったが、チームが頑張ったので、なんとかできたというのが当時だったと思う。一年経過して状況を見ると、予想以上の反響になっている。ターゲットがそもそも業務系・基幹系のバッチ処理なので、名前が知られるには2−3年はかかるだろうな、と考えていたのだが、折からのビッグデータブーム(これはAsakusaの公開時点ではまだ来ていなかった)->Hadoopの知名度向上->バッチの高速化の流れにうまく棹さすように乗れている事も大きい。 また、OSSにしたことも結果として、よかった。まずは簡単に使えてもらえるということと、各SI屋さんや使い手のNot Invented Here 症候群への緩

    ノーチラス第二期の開始 - 急がば回れ、選ぶなら近道
    nobusue
    nobusue 2012/03/30
    正しい経営判断だと思います
  • 小売業における個別原価法とシステムとその先に - 急がば回れ、選ぶなら近道

    まず小売業の利益計算の基的な会計処理は売価還元法になっている。ありとあらゆる原価法の中でもっともザルで、かつ、いい加減な方法の一つである。端的に言えば、一定のカテゴリーベースでの売価の総額と仕入の総額を総計して、原価率を算定して、その率をもって利益を算出する計算方法になる。また、基的に棚卸法になるため、実際の棚卸を行い、原価計算期間終了時点での在庫金額を確定させないと、利益が算出されない仕組みである。 現場感覚でいうと、値入率(事前想定粗利率)から、実際のロス率を差し引いても、粗利率(事後達成粗利率)に一致しないため、直感に反するオペレーションになる。このため、数字にしっかりした人間であればあるほど、数字を信頼しないというモラルハザードな仕組みになっている。さらに、そもそも小売流通業の税前利益率は2-3%を達成できれば“優秀”であり、細かい利益率の管理が必須である。バイヤーレベルでは、

    小売業における個別原価法とシステムとその先に - 急がば回れ、選ぶなら近道
  • [第3回]ディストリビューションはなぜ必要?どう選ぶ?

    Apache Hadoopは皆様ご存知の通り、ソースコードが公開されているオープンソースソフトウェア(OSS)です。OSSは費用面で「無料で利用できる」、同義で商用利用でも「ライセンス費がかからない」点で企業システムでも活用が進んでいます。 しかしOSSの質はそれらと違うところにあります。OSSの魅力は、FLOSS(Free/Libre and Open Source Software)にもあるように、ソースコードのレベルで自由にソフトウェアを利用できる、というライセンスに支えられた開発モデルにこそあります。ソースコードを公開することで、多様な動機を持った開発者が次に示すような成果を取り込むことができます。 コミュニティーとは OSSには、多様な成果を取り込む過程で磨き抜かれたその品質と、将来性があります。IT活用の先進企業がOSSに積極的に取り組むのはそれゆえです。 Apacheソフト

    [第3回]ディストリビューションはなぜ必要?どう選ぶ?
  • IT news, careers, business technology, reviews

    Will OpenAI’s enterprise chatbot put a big hurt on Microsoft?

    IT news, careers, business technology, reviews
  • 富士通、ビッグデータ向け「Hadoopパッケージ」を販売開始

    富士通は2012年2月27日、ビッグデータ活用に向けたパッケージ製品「Interstage Big Data Parallel Processing Server V1.0」を販売開始した。4月末から提供する。オープンソースの分散処理ソフト「Apache Hadoop」を組み込んだバッチ処理基盤であり、「独自の分散ファイルシステムを採用して、性能と信頼性を高めた」(クラウドプラットフォーム開発部の芳賀豊 DI技術開発室長)。 Hadoopで一般に使われるHDFS(Hadoop Distributed File System)の代わりに、独自の分散ファイルシステムを使用。マスターサーバーからスレーブサーバーに対して効率的にジョブを割り当てることなどで、「HDFSに比べて5~10倍のI/O性能を実現した」(芳賀室長)。 Hadoop利用環境のアーキテクチャーを工夫することで、処理性能や使い勝

    富士通、ビッグデータ向け「Hadoopパッケージ」を販売開始
  • 第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp

    今回はいよいよHadoopを用いたレコメンドシステムについて説明します。 今回のポイントは以下の通りです。 処理をMapReduceフレームワークへ変換することで、分散処理のメリットを享受 アウトプットからkeyについて着目し、処理ロジックを考える 簡単な処理でも数段階のMapReduce処理を踏む場合がある 前回までのおさらい 分散処理の基的な考え方は、大規模データあるいは処理する問題を小さく、かつ、互いに独立した単位に分割して並列に処理することで、各処理単位の出力を結合することで最終的な結果を得るというものです。Hadoopは数ある分散処理のフレームワークの実装のひとつで、システムレベルの詳細の多くを意識せず、処理ロジックに集中して設計できる特徴があります。 Hadoopで処理するため、前回紹介したユーザの映画評価の履歴をHDFSのディレクトリにコピーすると、HDFSは履歴を各ノード

    第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp
  • Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道

    オープン系の歴史は、基的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux? おもちゃですね。Java? 飲めるの?Object指向? 品質高いの? ・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。Javaでの開発は普通になりました。Object指向以外の開発はまぁ普通にないですね。・・・しかし、残念ながら基幹バッチは未だに汎用機です。汎用機は未だに現役であり、基幹処理の根っこは、いまだ汎用機で動いています。信頼性は突出しているし、パフォーマンスもバッチ処理に関しては依然として最強だと言えるでしょう。新人COBOLな人のバッチが、ハイパーなOracle使いのSQLバッチを軽く凌駕する事は、まだ普通にあります。・・・なぜか? 多重度が違いすぎますね。 汎用機はハードウェアからOSレベルまですべて、多重度が上がる事を前提に処

    Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道
  • リアルタイムに近づくバッチ処理、大容量・高速・安価が身近に

    今回取り上げた分散バッチ処理はいずれも、トランザクション処理システムが管理するデータをテキストデータなどとして複製してから処理を行う。データウエアハウス(DWH)よりも、導入コストや開発コストが安価だ 同社は2009年10月、当日の売り上げを店舗別、商品別に分析するために使用していたデータウエアハウス(DWH)ソフトを廃棄した。売り上げ分析をやめたわけではない。DWHを、「テキストファイルを使ったバッチ処理」に置き換えたのだ。 現在同社は、POSレジから集めた売り上げデータをテキストとして保存し、1時間ごとにバッチ処理を行って、店舗別、商品別の売上高を集計する。非常に古典的なバッチ処理に見えるが、処理時間は大幅に短縮した。 同社は全国に70店舗を展開し、合計3万アイテムの商品を扱う。その3万アイテムすべてに対して、売り上げ個数や粗利益、値引き消化率(値引きをして売れた商品の比率)、廃棄率、

    リアルタイムに近づくバッチ処理、大容量・高速・安価が身近に
    nobusue
    nobusue 2012/01/24
    ユニケージ開発手法の適用例
  • Charming Python: Functional programming in Python, Part 3

  • EMCジャパンとノーチラス、基幹システム向けHadoopで協業

    EMCジャパンとノーチラス・テクノロジーズは2012年1月19日、分散バッチ処理ソフト「Hadoop」を基幹系システムのバッチ処理に適用するソリューションで協業すると発表した。EMC版のHadoopディストリビューション「Greenplum HD Enterprise Edition(EE)」と、ノーチラスのアプリケーションフレームワーク「Asakusa Framework」を組み合わせて提供する。 EMCは同日、Greenplum HD EEの日市場での販売を開始した。Greenplum HD EEは、Apacheソフトウエア財団のオープンソースソフトウエア(OSS)である「Apache Hadoop」をベースに、性能や可用性などを強化したディストリビューションだ。分散ファイルシステムとして、標準の「HDFS」ではなく、米MapRテクノロジーズが開発した「MapR FS」を採用。C/C

    EMCジャパンとノーチラス、基幹システム向けHadoopで協業
  • Hoop(httpfs)とwebhdfsの違い - たごもりすメモ

    Hadoop 1.0.0がリリースされた。まあ中身のほとんどはただの 0.20.x 安定板リリースなので特別に言うことはないんだけど。詳しくは以下のblogを読むのがよろしい。 hadoopのバージョン表記について - 科学と非科学の迷宮 ただしひとつだけびっくりしたのは、webhdfsなる機能が入ってきたこと。(このblogでよく話題にしている)Hoopと並んでそんなようなものがあること自体は知ってたけどあんまり興味なかったのだが、Apache Hadoopのパッケージに(Hoopより先に)入ったとなるとちょっと注目せざるをえない。 が、httpfs(Hoop)とwebhdfsじゃ名前も似てて超まぎらわしい。いったい何がなんなの。 なお自分はWebHDFSはAPIリファレンスを読んだだけで、実際にはカケラも触っていない。その状況での理解による内容なので、注意して読んでください。 先に結論

    Hoop(httpfs)とwebhdfsの違い - たごもりすメモ
    nobusue
    nobusue 2012/01/09
    1.0に含まれるwebhdfsとはなんぞや?
  • Hadoopの真価が問われる1年がスタート

    2011年にIT分野で注目度が高かった話題の1つが分散バッチ処理基盤「Hadoop」活用機運の高まりだ。海外でビジネス利用の事例が増えてきており、国内でも一部の先進企業で導入検討が進められている。2012年はますますビジネスへの貢献を念頭においた発表が盛んになるだろう。 なぜこれほどに注目されるのか? 大きくは、Hadoopは「ビッグデータ」の実現手段の1つとして注目を浴びている。企業や消費者、あるいは各種機器がネットワークでやり取りする情報の増加を背景に、今後も大量の活動履歴などが蓄積されていく。それらを有効活用すれば、「異変を察知する」「近未来を予測する」といった分野で、人間の脳を超える正確さとスピードで意思決定できるロジックを開発できる可能性がある。 ・「ビッグデータ」が注目される理由 ・ビッグデータを迎え撃て…超高速化する「バッチ処理」 Hadoopが開く可能性 Hadoopの具体

    Hadoopの真価が問われる1年がスタート
    nobusue
    nobusue 2012/01/09
    今年は本格的な普及の年になりそう。まずは1.0(0.20系)かな。今後はHDFSから分散処理の部分が切り離されて発展しそう。
  • [OOW2011]オラクルがビッグデータ専用アプライアンス、NoSQLとHadoopを標準搭載

    米オラクルは2011年10月3日(米国時間)、サンフランシスコで開催中のOracle OpenWorld 2011において、ビッグデータを高速処理するための統合製品「Oracle Big Data Appliance」を発表した。オープンソースの分散処理基盤「Apache Hadoop」を活用し、大量の非構造化データを高速処理できるのが特徴だ。 同製品はHadoopのほか、OSSのデータベースエンジン「Berkeley DB」を基に開発した分散キー・バリュー型データベースの「Oracle NoSQL Database Enterprise Edition」、Hadoopとオラクル製データベースの連携ソフト「Oracle Data Integrator with Application Adapter for Hadoop」、データの抽出や分析を行うための分散処理フレームワーク「Hadoop

    [OOW2011]オラクルがビッグデータ専用アプライアンス、NoSQLとHadoopを標準搭載
  • 米マイクロソフト、Windows ServerとWindows Azure向けの「Hadoop」

    米マイクロソフトは2011年10月12日(米国時間)、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」の中心的な開発企業の一つである米ホートンワークスと提携して、Windows ServerとWindows Azure向けのHadoopディストリビューションを提供すると発表した。2011年末までに、Windows Azure向けHadoopのCTP(コミュニティ向け技術評価版)をリリースする。 Hadoopは、米グーグルの「MapReduce」や「Google File System」を参考にした分散バッチ処理ソフトで、米ヤフーが中心となって開発してきた。ホートンワークスは、ヤフーのHadoop開発チームが今年6月に独立した企業である。またHadoopは現在、Apacheソフトウエア財団のトッププロジェクトである。 MSとホートンワークスは共同で、Windows

    米マイクロソフト、Windows ServerとWindows Azure向けの「Hadoop」