並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 12982件

新着順 人気順

hadoopの検索結果241 - 280 件 / 12982件

  • 分散システムについて語らせてくれ

    ↓↓↓↓訂正あります。↓↓↓↓ 2018/07/02に株式会社エフコード社内で行われた勉強会のスライドです。 訂正版(随時更新中): https://docs.google.com/presentation/d/15HOMfAbtdWwO48njcB8IdkN3kVAMu3wsmZo0O3S-f_4/edit?usp=sharing 専門家による資料・専門家向けの資料ではありません。自分自身で学習し、論文・文献等を読解してまとめた内容となります。間違い等あるかもしれませんが、あれば是非コメント頂ければと思います。 【訂正事項】 スライド16: 誤:たった一つのプロセスが故障しただけでも有限時間で合意できない 正:たった一つのプロセスが故障しうるだけでも有限時間で合意できない スライド20: 誤: 重要: あるschedule σ1, σ2 がdisjoint (nodeが被ってない) なら

      分散システムについて語らせてくれ
    • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

      これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

      • そろそろHadoopについてひとこと言っておくか - nokunoの日記

        もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

        • 「プログラミングを独習するには10年かかる」を読んでから10年以上経った - 科学と非科学の迷宮

          ある方から「どうすればコードが書けるようになるんですか?」という質問を受けました。 その場で自分の考えを伝えたものの、そもそもソフトウェアエンジニアでもない自分がそんな質問をされる立場になると思ってもいなかったので、人生どうなるか分からないものだなと思いました。 色々と思考を巡らせていると、ふとプログラミングを独習するには10年かかるという記事があったことを思い出しました。 自分のブックマークを見ると、 Teach Yourself Programming in Ten Years 日本語訳[プログラミング][読み物][特選] 道は遠い。2005/08/08 10:25 b.hatena.ne.jp なんと10年どころか12年近くも前でした。当時どんな思いでこのコメントを書いたのかは分かりませんが、正直面白くないコメントです。 この記事をブックマークした当時は大学の研究室にいてCやらFOR

            「プログラミングを独習するには10年かかる」を読んでから10年以上経った - 科学と非科学の迷宮
          • 【レビュー】良くも悪くも『Amazon EC2』は"自由"だった - MOONGIFT運営でわかったこと (1) コストは算出しづらいが…… | ネット | マイコミジャーナル

            Amazon EC2の利用を考えていますか? 筆者の管理サイト「MOONGIFT」は、2008年3月にAmazon Web Services(AWS)が提供する『Amazon EC2』(Amazon Elastic Compute Cloud)上での運営に切り替えました。今年に入ってから"クラウド"という単語が出回るようになり、その先駆者とも言えるAmazon EC2に注目が集まっています。日本の企業や個人であっても利用者が増えているのは事実ですが、実際の利用にまで踏み切れず躊躇している方が多いのもまた事実です。要因としてはセキュリティの確保や、米国のデータセンターにデータが預けられること、速度面での問題など様々に考えられますが、もっとも大きい問題としては未知なものに対する怖さがあるのだと思われます。 そこで今回はMOONGIFTがこれまでAmazon EC2を利用してきた中で感じたメリッ

            • NoSQLの現状

              このため、NoSQLの知識を持つ開発者やアーキテクトに対する需要が高まってきています。最近の調査によると、最近必要とされる開発スキルは次の通りです。 HTML5 MongoDB iOS Android Mobileアプリ Puppet Hadoop jQuery PaaS ソーシャルメディア 技術的要求のトップ10の中で、NoSQLデータベースは2つあります。1つは、iOSよりも上です。これがNoSQLをほめているのでなかったら、何なのでしょう?! しかし、一見したところ、NoSQLはますます速く深いところまで適用されるようになっています。2011年の夏に、有名な報告書の中でOracleは次のように述べました。NoSQL DBがアイスクリームの味のように感じるかもしれないけれど、あまり深入りしない方がいい、NoSQLはそれほど長く残らないかもしれないから。そのわずか2、3ヶ月後、Oracl

                NoSQLの現状
              • “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)

                シリコンバレーの日本人ベンチャーとして注目度の高いトレジャーデータのCTOである太田一樹氏とのインタビューが実現した。CEO芳川裕誠氏の家のベランダと熱海の温泉で始まった会社の起業物語やサービスのポイントなどを聞いた1時間のインタビューをほぼ加工なしで掲載する。 Hadoopのポテンシャルを感じ始めたときに声をかけてもらった TECH.ASCII.jp 大谷(以下、TECH 大谷):太田さんというと、Hadoopの人というイメージがありますが、そもそものバックグラウンドを教えてください。 トレジャーデータ 太田氏(以下、TD 太田):はい。もともと私のバックグラウンドはHPC(High Performance Computing)のエリアで、19歳くらいからあまり学校にも行かず(笑)、プリファードインフラストラクチャという会社のCTOをやらせていただきました。あと、米オレゴンの国立研究所で

                  “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)
                • ログ集計システムを自前で作る - Y's note

                  Index ログ集計システムの要件 DB設計 データ保存方針 table設計 サーバ構成 Fluentd fluentd,fluent-plugin-mysql-bulk install td-agent.conf mysqlにデータが格納される事を確認する 集計用のバッチ その他 Table肥大化防止 可視化 ログ集計システムの要件 爆弾ログ処理班の@yutakikuchi_です。 ログ集計システムというものを作る時に皆さんはどのように対応していますか? 以下の候補から要件のレベルで使い分けをしている人が多いと予想しています。ざっくりの評価ですが、導入難易度、正確性、可視化、リアルタイム、長期集計、スケール、運用費用という点で評価を書いています。 ツール 導入難易度 正確性 可視化 リアルタイム 長期集計 スケール 運用費用 リンク GA(スタンダード) ○ × ○ ○ ○ ○ ○ Go

                    ログ集計システムを自前で作る - Y's note
                  • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

                    基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

                      分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
                    • NoSQLデータベースを40種類以上リストアップ、キーバリュー型にもいろいろある

                      Webスケールのデータを扱うためにさまざまなデータベースが登場してきている、ということを昨日のエントリ「データベースは目的別に使い分けるべし」で紹介しました。 特にリレーショナルモデルをベースとしない、非SQL系(NoSQL)と呼ばれるさまざまな種類のデータベースが登場してきています。非SQL系のデータベースは以前からオブジェクトデータベースやドキュメントデータベース、階層型データベースなどが存在していましたが、最近注目されているのがキーバリュー型データストアと呼ばれるデータベース。 ブログ「High Scalability」にポストされたエントリ「A Yes for a NoSQL Taxonomy」では、これら非SQL系のデータベースを詳細に9分類し、それぞれの分類に属するデータベースをリストアップしています(基になったのは「NoSQL is a Horseless Carriage」

                        NoSQLデータベースを40種類以上リストアップ、キーバリュー型にもいろいろある
                      • BLOG::broomie.net: 機械学習の勉強を始めるには

                        thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

                        • 東芝、社会インフラなどで使われているNoSQL「GridDB」をオープンソースで公開。インメモリでビッグデータの高速処理が可能

                          東芝は、これまでGridStoreとしてエネルギー管理システムなどの社会インフラで利用されてきた商用のNoSQLデータベースを、「GridDB」としてオープンソース化したことを発表しました。 GridDBはキーバリュー型を拡張したキーコンテナ型のデータモデルで、時系列データや2次元、3次元の空間データもサポートするNoSQL型データベース。 データをストレージではなくサーバーのメインメモリに配置し、インメモリで処理することで、ペタバイトクラスのビッグデータでも高速に処理が可能。 ノードを追加するだけで容量や性能を拡張、縮退できるスケールアウト機能、マスタスレーブ型とピアツーピア型の特長を合わせ持つハイブリッド型クラスタ管理方式の自律制御クラスタ管理により、SPOF(Single Point of Failure:単一障害点)を排除した高い可用性などが特長です。 東芝はオープンソース化の狙い

                            東芝、社会インフラなどで使われているNoSQL「GridDB」をオープンソースで公開。インメモリでビッグデータの高速処理が可能
                          • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

                            大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

                              日々進化するHadoop。これまでのおさらいと最近の動向(前編)
                            • 1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?

                              By Chris Halderman 1日の長さは通常24時間ですが、2015年7月1日はうるう秒(閏秒)が挿入されることで通常より1秒長い「24時間1秒」になります。うるう秒とは、現行の協定世界時(UTC)と地球の自転のズレを調整するために追加・削除される時間のことで、2012年7月1日に実施された際にはインターネット上でうるう秒バグが発生しました。 INTERNATIONAL EARTH ROTATION AND REFERENCE SYSTEMS SERVICE(IERS) http://hpiers.obspm.fr/iers/bul/bulc/bulletinc.dat フランスのパリに本部を置く国際地球回転・基準系事業(IERS)は、「うるう秒」を2015年6月30日(世界標準時)に実施することを発表しました。これにより2015年6月30日は23時59分59秒の後に23時59分

                                1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?
                              • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

                                はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

                                  第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
                                • フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

                                  はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

                                    フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
                                  • [速報]ついにきた! Amazonクラウドの東京データセンターが稼働開始

                                    Amazonクラウドは3月2日23時、日本でのデータセンター「東京リージョン」の開設を発表しました。東京リージョンはすでに稼働を開始しており、現時点で利用可能になっています。 東京リージョンの利用価格はLinux/UNIXのスモールインスタンスで1時間あたり0.10ドル。ラージインスタンスで1時間あたり0.40ドルなど。今後数カ月の間に、決済に日本円を選択できるよう準備中とのこと。 Publickeyはすでに利用を開始している一部のパートナーの発言を聞く機会があり、「東京リージョンを試したところレイテンシは数ミリセカンドと、国内のほかのデータセンターと全く変わらない」と、国内データセンターならではのレスポンスを確認する発言を聞けました。 日本円での課金は数カ月以内、日本語でのテクニカルサポート開始 東京リージョンでもAmazonクラウドの主な機能はほとんど利用可能。ただしHadoopの機能

                                      [速報]ついにきた! Amazonクラウドの東京データセンターが稼働開始
                                    • 突撃!隣の開発環境 パート12【Treasure Data編】 in シリコンバレー | DevelopersIO

                                      こんにちは!しんやです。今回はおおはしりきたけが書き連ねている人気シリーズ『突撃!隣の開発環境』に乗っかる形で私もこのシリーズエントリを書かせて頂きたいと思います。 突撃!隣の開発環境とは 技術事例やノウハウなどは、ブログや勉強会などで共有されることが多いと思います。しかし、各社の開発環境や開発体制などは意外と共有されていないこと多いと思います。ノウハウの流出になるかもしれませんが、それ以上に、より良い開発を目指している会社さん同士で情報交換を行い、良いチーム、良いプロダクトを作っていくという志の会社さんの為の情報共有のための企画になります。開発環境や開発体制なども技術領域によっても変わってくると思いますが、この突撃!隣のシリーズでは様々な会社さんのイケてるツールの使い方や、仕事が捗る開発体制についてインタビューを行っていく予定です。 Treasure Data社紹介 今回第12回目として

                                        突撃!隣の開発環境 パート12【Treasure Data編】 in シリコンバレー | DevelopersIO
                                      • クラウドを支える基盤技術の最新動向と今後の方向性

                                        知っているようで知らないNeutron -仮想ルータの冗長と分散- - OpenStack最新情報セミナー 2016年3月 VirtualTech Japan Inc.

                                          クラウドを支える基盤技術の最新動向と今後の方向性
                                        • memcachedを超える成果も、Interopで若手技術者がクラウドを支える技術を競う

                                          「日本でゼロからクラウドを生み出すムーブメントを作り出したい」(実行委員長 門林雄基氏)---“クラウドを支える技術”の開発力を競う「クラウドコンピューティングコンペティション」が2009年6月11日、Interop 2009の会場で開催された(写真1)。企業や大学・大学院の研究者、そして高校生を含む若手エンジニアが、新しいアイディアと技術力で作り上げたクラウドコンピューティングの基盤ソフトウエアを披露した。 クラウドコンピューティングコンペティションは、奈良先端科学技術大学院大学の門林雄基准教授らの呼びかけで実現したイベント。若手のエンジニアがP2P(ピア・ツー・ピア)技術や分散データ処理技術といったクラウドコンピューティングの基盤技術を開発し、その成果を競う。検証環境として、情報通信研究機構(NICT)が運用するクラスタ環境「StarBED」のコンピュータを最大1000台まで使用可能で

                                            memcachedを超える成果も、Interopで若手技術者がクラウドを支える技術を競う
                                          • 第1回 機械学習を実践する前の基礎知識 | gihyo.jp

                                            みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています

                                              第1回 機械学習を実践する前の基礎知識 | gihyo.jp
                                            • ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを

                                              When Alex Ewing was a kid growing up in Purcell, Oklahoma, he knew how close he was to home based on which billboards he could see out the car window.…

                                                ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを
                                              • グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開

                                                グーグルは、同社内でパラレルデータ処理に利用している言語「Sawzall」を、「Szl」というプロジェクト名のオープンソースとして公開しました。 書籍「Googleを支える技術」によると、Sawzallは分散処理のためにデザインされたDSL(Domain Specific Language)で、特定の用途に限っては非常に容易に処理を記述できるようになっているインタープリタ型のプログラミング言語。GFS(Google File System)とMapReduceを基盤とし、MapReduceをより簡単に実行できるものと説明されています。 なぜSawzallはオープンソースとして公開されたのか? グーグルは2003年8月に、論文「Interpreting the Data: Parallel Analysis with Sawzall」を発表し、これによってSawzallという言語がグーグルに

                                                  グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開
                                                • ここが大変だよBigtableとGoogle App Engine

                                                  ここが大変だよBigtableとGoogle App Engine:分散Key-Valueストアの本命「Bigtable」(3)(1/2 ページ) RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説 月間3000万PVの大規模サイトの運用費が月額4万円!? 月間3000万PV相当の膨大なトラフィックを楽々とさばく大規模サイトが、月額4万円弱で運用されている。 Google App Engine(以下、App Engine)が普及するにつれて、そんな驚愕の国内事例も登場しつつあります。GClueがApp Engine上で実装したmixiアプリモバイルモバイルには、1日100万PV以上のアクセスが集中している状態でもサービスのレスポンス低下やダウンは皆無

                                                    ここが大変だよBigtableとGoogle App Engine
                                                  • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

                                                    新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

                                                      新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
                                                    • Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析  テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース

                                                      日本アイ・ビー・エム(以下、日本IBM)の「IBM dashDB Local」は、プライベートクラウド/ハイブリッドクラウドに最適な構成を持つデータウェアハウス(DWH)向けの製品である。Dockerコンテナとしてデプロイ、スケールアウト(規模拡大)でき、データ量や処理負荷の急増に柔軟に対応できる。インメモリの列指向データベースと並列処理により検索処理を高速に実行する。システムの成長に柔軟に対応できるライセンス体系を備えている。 構成はITジャーナリストの星 暁雄です。記事の最後にはプレゼントのお知らせもあります。 (※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です) ▽ IBM dashDB Local - ハイブリッド・データウェアハウスを実現する Software-Defined DWH - Japan プライベートクラウド上でソフトウェアで定義されたスケーラブルなデ

                                                        Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析  テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース
                                                      • Java 7 CMS GCの基本的な情報の整理 - nekop's blog

                                                        バッチ処理などスループット重視のアプリケーションはデフォルトのパラレルGCで良いが、Java EEアプリケーションサーバなどレスポンスタイム重視のものやHadoopなどのクラスタ系ソフトウェアで死活監視に引っ掛る系などのstop the worldをなるべく避けたいいわゆるサーバ系ソフトウェアを運用する場合には、UseConcMarkSweepGCを付与して停止時間の短いCMS GCを使う。その場合にCMSのチューニングに踏み込もうとするとなんだか難しい記述がいっぱいで若干困るので、簡単なガイドをメモとして書いておく。 対象バージョンは以下。 $ java -version java version "1.7.0_51" OpenJDK Runtime Environment (fedora-2.4.5.1.fc20-x86_64 u51-b31) OpenJDK 64-Bit Serve

                                                          Java 7 CMS GCの基本的な情報の整理 - nekop's blog
                                                        • 大規模分散処理向けの国産“ウェブOS”をRubyで開発中 − @IT

                                                          2007/11/26 2007年11月24日、「楽天テクノロジーカンファレンス2007」において、Ruby言語の開発者で楽天技術研究所フェローのまつもとゆきひろ氏は、開発中の大規模分散処理基盤「Roma」(ローマ)と「Fairy」(フェアリー)のコンセプトを語った。研究段階ではあるものの、米グーグルなど世界トップクラスのネット企業だけが持つ大規模分散処理技術に真っ向から挑戦する試みだ。 米グーグル、米ヤフー、米アマゾンなど世界トップクラスの大手ネット企業は、巨大なトラフィックに対処するため、大規模データセンターの信頼性、可用性、性能などを確保する大規模分散処理基盤の研究開発を進めている。最近では、こうした大規模分散処理基盤は“ウェブOS”と呼ばれることもあり、注目を集めている。つまり世界トップクラスのネット企業は“ウェブOS”を自社開発しているわけだが、楽天でも国産の“ウェブOS”が生まれ

                                                          • TechCrunch | Startup and Technology News

                                                            Cloudera, the once high flying Hadoop startup, raised $1 billion and went public in 2018 before being acquired by private equity for $5.3 billion 2021. Today, the company announced that…

                                                              TechCrunch | Startup and Technology News
                                                            • ウェブ系エンジニアがおさえておきたい技術ブログまとめ(海外編) - nokunoの日記

                                                              こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。 企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge

                                                              • Treasure Dataを支える(中の人に必要な)技術 - myui's memo

                                                                Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行本(ソフトカバー)購入: 47人 クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

                                                                  Treasure Dataを支える(中の人に必要な)技術 - myui's memo
                                                                • AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方

                                                                  リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活

                                                                    AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方
                                                                  • オープンソースの開発現場では限られたリソースで品質管理をどうしているのか。Twitter4J、GitBucket、Asakusa Framework、power-assertの作者が討論(前編)

                                                                    和田氏 このセッションは、OSSにおける品質管理やテストなどをどう考え、運営しているのか、という内容でパネルディスカッションをさせていただきます。まずは登壇者がどんな方か、自己紹介してもらおうと思います。 竹添氏 ビズリーチの竹添と申します。転職サービスの会社なのですが、今日は個人で「GitBucket」という、GitHubのような機能を提供するWebアプリケーションを作っているので、その立場で参加させていただきます。 もともと僕はSIerにいて、そのときはGitHubのような外部のサービスを使えなくて、それで社内でもGitHubのようなサービスが使えたらいいなと思ってGitBucketをはじめました。 なのでGitBucketはGitHubを参考に開発を始めたのですが、同じようなニーズを持ったお客さんが国内にも、海外にも多くいるので開発を続けています。 川口氏 ノーチラス・テクノロジーズ

                                                                      オープンソースの開発現場では限られたリソースで品質管理をどうしているのか。Twitter4J、GitBucket、Asakusa Framework、power-assertの作者が討論(前編)
                                                                    • サンのクラウドは、Amazon EC2とどう違うのか? - @IT

                                                                      2009/06/02 サン・マイクロシステムズが2009年夏にも提供を開始するクラウドサービス「Sun Cloud」の概要が見えてきた。同社のクラウドサービスはOpenSolarisベースの仮想環境で、Amazon EC2/S3に相当するサービスを提供するものだ。計算リソース(OSやアプリケーションなどのソフトウェア実行環境)を提供する「Sun Cloud Compute Service」とストレージサービスの「Sun Cloud Storage Service」で構成する。 価格などまだ不明な点は多いが、技術情報は徐々に出てきている。例えばストレージサービスに関してはWebDAVやAmazon S3互換のRESTful APIでアクセスできることが明らかにされているほか、APIのドキュメントやJavaで書かれた管理コンソール、PythonやRuby向けのライブラリが公開されている。スクリ

                                                                      • はてなブックマークの関連エントリー機能開発、PFI さんとの合宿 - naoyaのはてなダイアリー

                                                                        はてなブックマークに関連エントリーを配信する機能を追加しました。詳しくは 告知日記で。 この関連エントリーは、株式会社プリファードインフラストラクチャー (以下 PFI) の技術者のみなさんと一緒に開発しました。週末に2泊3日で京都で合宿をしてコア部分を作り、その後京都と東京に分かれてオンラインで連絡を取りながら2週間ほど作り込みをして、今日リリースです。 この合宿では何チームかに分かれて、今回の関連エントリーの機能以外の開発も行っています。その辺の成果はまた後日にリリースできるのではないかと思います。 はてなブックマークの一つの問題として、昔のエントリーがデータベースに埋もれてしまうという点がありました。その問題の解決策としての類似記事抽出、それから検索機能の強化を以前から考えていました。PFI のメンバーのみなさんは情報検索技術のスペシャリストです。アカデミックな研究の成果を製品化を通

                                                                          はてなブックマークの関連エントリー機能開発、PFI さんとの合宿 - naoyaのはてなダイアリー
                                                                        • 「これからのWeb(バックエンド)」を自分の頭で考えてみた - As a Futurist...

                                                                          ふと今更、年初のCROSS 2013の「次世代 web セッション」の動画を見て、うんうん唸ってしまった。プロトコル編の方は知識不足であんまり分からなかったですが、アーキテクチャ編の方はグサグサくるものがあった。「自分の頭でこれからの web を考えてブログに書くまでがこのセッション」という宿題が出ていたので、せっかくなので最近考えてることをつらつらと書いておこうと思った次第。特にまとまりはないですし、戯言です。 これからの Web の話をしよう。 (次世代 Web セッション @ CROSS2013) – Block Rockin’ Codes 前提 僕はコード書いてない&サーバサイドしか見たことない&WEB サーバはあんまり見たこと無くて、それより後ろ側ばっかり見てた人なので、ユーザ側とかアプリ開発者がどうなっていくかについて特に尖った意見はありません orz SPDY とかもまだ手を

                                                                            「これからのWeb(バックエンド)」を自分の頭で考えてみた - As a Futurist...
                                                                          • マイクロサービスアーキテクチャとそれを支える技術 | さくらのナレッジ

                                                                            最近では「マイクロサービス」と呼ばれる、機能毎に細かくサービスを分割して開発や運用を行うアーキテクチャの採用例が増えている。本記事ではこのマイクロサービスアーキテクチャや、それに使われる技術について紹介する。 マイクロサービスとは 近年、ITシステムの開発・運用において「Microservice(マイクロサービス)」というアーキテクチャを採用する例が増えている。マイクロサービスアーキテクチャは、簡単に言えばサービスを構成する各要素を「マイクロサービス」と呼ばれる独立した小さなコンポーネントとして実装するという手法で、2011年ごろから提唱されているものだ。 マイクロサービスについては、2014年に公開された「Microservices」という文書が有名だ(有志による日本語訳)。また、さくらのナレッジでも2015年に紹介されている。マイクロサービスの詳しい思想についてはこれら記事を参照してほ

                                                                              マイクロサービスアーキテクチャとそれを支える技術 | さくらのナレッジ
                                                                            • クラウド時代に習得すべき言語10選

                                                                              Nick Hardiman (Special to TechRepublic) 翻訳校正: 川村インターナショナル 2015-03-20 06:00 コンピュータ言語を1つ挙げろと言われたら、多くの人は広く知られた汎用手続き型言語を選ぶだろう。学校で教わる「C」「Java」「Python」などのはずだ。しかし、いつも名前が挙がるこれらの言語は、コンピュータ言語という氷山の一角でしかない。キーワードと構造を使って情報を伝達するものは言語と言える。ここでは、検討すべき10のクラウド言語を紹介する。 1. SQLデータ言語 誰もが認めるところだが、SQLは何十年にもわたってデータ言語の王者として君臨してきた。非リレーショナルデータベースサーバでさえも、何らかのSQLに対応する。クラウドでも、他のすべてのIT分野と同様、至るところでSQLが使われている。 SQLにまつわるジョークを1つ紹介しよう。

                                                                                クラウド時代に習得すべき言語10選
                                                                              • Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison :: Software architect Kristof Kovacs

                                                                                Hello, I’m Kristof, a human being like you, and an easy to work with, friendly guy. I've been a programmer, a consultant, CIO in startups, head of software development in government, and built two software companies. Some days I’m coding Golang in the guts of a system and other days I'm wearing a suit to help clients with their DevOps practices. While SQL databases are insanely useful tools, their

                                                                                • [O] これから15分で Remedie を始めるための資料

                                                                                  « ぎんなんの封筒チン | トップページ これから15分で Remedie を始めるための資料 [Perl] Remedieを使い始めたので、さっそく手順をまとめました。 この資料を15分くらいかけて上から下まで読み、 Mac OSX やDebian Linuxにインストールすると、 割とあっさり、Remedieが動かせると思います。 Remedieとは Remedie は Perl で書かれたプラガブルな メディアセンターアプリケーションです。 Plaggerを生んだ、miyagawaさんによるアプリです。 - Plagger - Trac -- http://plagger.org/trac Remedieに、さまざまな動画ファイルの更新情報を登録することで Remedieは、自分のお気に入り動画で埋め尽くされた 自分専用の動画閲覧インターフェイスになってくれま