タグ

ブックマーク / frsyuki.hatenablog.com (11)

  • 続々・リトライと冪等性のデザインパターン - あらゆる操作を冪等にする方法 - Blog by Sadayuki Furuhashi

    いつも心に冪等性。古橋です。 リトライと冪等性のデザインパターンの完結編です。 だいぶ間が空いてしまいましたが! 最後に冪等性を実装する汎用的な実装手法についてまとめていきます。 パターン6:操作ログとリクエストIDでUPDATEを冪等にする 同じIDで識別される値がUPDATEされる場合、つまりmutableである値の管理は、一般に冪等に行うのが難しい。 例えば、ユーザーごとに「最後に購入したアイテム」を更新する操作を考えてみると: 1. ユーザーAが最後に購入したアイテムをアイテム1に変更する(UPDATE) 2. ユーザーAが最後に購入したアイテムをアイテム2に変更する(UPDATE) この操作に何の対策もなくリトライを実装した場合、後続のUPDATE処理の結果を古い内容で上書きしてしまう可能性がある: 1. ユーザーAが最後に購入したアイテムをアイテム1に変更する(UPDATE)→

    続々・リトライと冪等性のデザインパターン - あらゆる操作を冪等にする方法 - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2017/08/10
  • MessagePackフォーマット仕様にTimestamp型を追加 - Blog by Sadayuki Furuhashi

    MessagePackフォーマット仕様のPull Request #209をマージし、MessagePackにTimestamp型を追加しました。 ※この記事の英語版は XXX にあります(翻訳中) Extension型の型コード -1 として定義されているため、後方互換性が維持されています。つまり、既にExtension型に対応しているデシリアライザであれば、Timestamp型を使用して作成されたデータを、Timestamp型に対応していない古いデシリアライズで読み出すことができます。 新しいTimestamp型には timestamp 32、timestamp 64、timestamp 96 の3つのフォーマットがあり、よく使う値をより少ないバイト数で保存できるようになっています。例えば、1970年〜2106年までの時刻で、秒までの精度しか持たない時刻であれば、合計6バイトで保存でき

    MessagePackフォーマット仕様にTimestamp型を追加 - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2017/08/10
  • Embulkでやりたいことリスト(2015年7月版) - Blog by Sadayuki Furuhashi

    バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテーブル にロードしたいというようなユースケースに対応する機能。 設定ファイルの構文はissueに書いてあるように、default: に書き並べた設定に対して、jobs: に書いた設定をマージしたものを実際の設定ファイルとして実行していく方法で良さそう。しかし、fliters: は配列なので、default: に書かれた filters: に jobs: に書かれた filters: をどうマージするか、あまり良

    Embulkでやりたいことリスト(2015年7月版) - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2015/07/21
    バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテ
  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2015/02/25
    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ
  • データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi

    Treasure Data, Inc. 古橋貞之です。 来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。 入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、 トランザクション制御 冪等性 高速性 スキーマを使ったvalidation などの拡張を備えています。 1回で使

    データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2015/01/20
    Treasure Data, Inc. 古橋貞之です。 来たる1月27日、新しいOSSツール Embulk をリリースします。EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコン
  • リトライと冪等性のデザインパターン - Blog by Sadayuki Furuhashi

    リトライを肴に一晩酒が飲める古橋です。 大規模なデータに触れることが日常茶飯事になっている今日この頃。この分野のおもしろいところは、いつまで経っても終わらないプログラムを簡単に作れてしまうことかもしれません。エラー処理、リトライそして冪等性*1の3つを抑えていないプログラムは、小規模なデータなら問題ないが、データ量が多くなると使い物にならなくなる可能性が大です。 大規模データをバッチ処理するケース以外でも、リトライは一般にプログラムの信頼性に関わる重要な問題です。 そんなわけで、リトライに関わるいくつかのデザインパターンを、連載でまとめておこうと思います*2。 では、第1回は背景から: なぜリトライが必要なのか プログラムは色々な理由で失敗する。例えば、 A) 通信先のプログラムが高負荷すぎて応答できなかった B) メモリを消費しすぎてメモリ確保に失敗した。またはOOM KIllerに殺さ

    リトライと冪等性のデザインパターン - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2014/06/10
    冪等性気を付ける
  • 「分散システムのためのメッセージ表現手法に関する研究」 - 筑波大学大学院を卒業しました - Blog by Sadayuki Furuhashi

    このたび筑波大学大学院を卒業し、修士号を取得しました。卒業にあっては当に多くの方々にご助力いただきました。この場を借りて御礼申し上げます。ありがとうございました。 現在は起業して、12月からアメリカに在住しています。新たな価値を生み出すべく "下から上まで" システムの設計と開発に携わっており、エキサイティングな毎日を送っています。 修論シーズンに日にいなかったので、修士論文はメールで送って提出し、卒業式にも出席していないというありさまなので、当に卒業できたのかどうか実感がないのですが、友人によれば「学位記はあった」らしいので、きっと大丈夫でしょう。(写真はカリフォルニア州マウンテンビューにて) さて、せっかく時間を割いて書いたので、修士論文を公開することにしました。 分散システムのためのメッセージ表現手法に関する研究と題して、バイナリ形式のシリアライズ形式である MessagePa

    「分散システムのためのメッセージ表現手法に関する研究」 - 筑波大学大学院を卒業しました - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2012/04/02
  • MessagePack for Java ついに 0.6 リリース! - Blog by Sadayuki Furuhashi

    先日の fluent に引き続き、新しいソフトウェアのリリースです。 満を持して、MessagePack for Java 0.6 をリリースしました! 9ヶ月ぶりのメジャーバージョンアップです。 以前のバージョン 0.5 の API をすべて見直し、互換性を維持しながらも、数多くの機能を新たに搭載しました。動的オブジェクトAPI や リフレクション機能の強化、JRubyとの連携、JSONサポート などなど。もちろん、性能も大きく向上しています。 このバージョン 0.6 のリリースによって、MessagePack の応用範囲は大きく広がります。MessagePackは、クラウドシステムからモバイルデバイスデバイスまで、多種多様なシステムの連携と統合をサポートする、新しいデータ表現形式です。 さて、新機能の詳細をご覧下さい: JSONシリアライザ・デシリアライザを統合 MessagePack

    MessagePack for Java ついに 0.6 リリース! - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2011/10/07
    このバージョン 0.6 のリリースによって、MessagePack の応用範囲は大きく広がります。MessagePackは、クラウドシステムからモバイルデバイスデバイスまで、多種多様なシステムの連携と統合をサポートする、新しいデータ表現
  • 進化するMessagePackプロジェクト - Webサイトリニューアル - Blog by Sadayuki Furuhashi

    MessagePack Project のWebサイトをリニューアルしました! 新しいURLは、http://msgpack.org/ です。 シンプルなイメージから若干趣を変え、完成度が高くてリッチな印象を重視しました ;-) 文章ではシリアライズの速度に加えて、RPCの意欲的な設計を強調しています。 なお、Twitterのハッシュタグは #msgpack です。ぜひツイートしてください^^; 実は先日、MessagePackプロジェクトについて StumbleUpon の研究開発チームの方々にプレゼンテーションしてきました。(参考:FacebookとStumbleUponの方がTwitterよりトラフィックを生んでいる) 写真を一枚^^; さらに、LuceneやHadoop開発者であり、Avroの開発者でもある Doug Cutting 氏(Wikipedia!)ともディスカッションす

    進化するMessagePackプロジェクト - Webサイトリニューアル - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2010/06/25
    非同期通信や通信の並列・パイプライン化など、昨今では当然のように必要になる機能でありながら、ThriftやAvroでは実現できなかった、先進的な機能をサポート
  • サーバーとネットワークの動的な構築について - Blog by Sadayuki Furuhashi

    次期RUNESのために思いついたこと。 背景として、今IT業界で「動的」が流行っている。ここで言う「動的である」ということは、あらかじめ設計や仕様を固めたりせずに、そもそも変化があることを前提とし、作っているプログラムやサービスもどんどん変化させていくこと。 たとえばシステム開発手法の1つであるウォーターフォール型は、かなり昔に無理があることが分かってきた(無理が出てきた)らしく、XPとかAgileという話を良く見る。(良く見るということは、世の中がそっちに向かっているということだと思う) Webサービスのベンチャーでは特に激しくて、Web2.0と言うのは、とりあえずBeta版のままでリリースしてしまって、その後ユーザーからのフィードバックを得ながらどんどん変化させていく方法で成功しているように思える。あらかじめ固まった設計なんて無い。永遠のBetaだったりもする。ずっと変化する。 Rub

    サーバーとネットワークの動的な構築について - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2009/05/05
    VMで下層レイヤーを仮想化しても、その下層レイヤーが動的に拡張可能な形で冗長化されていないといけないわけですが、結局共有ディスク(SAN)に頼る方法では動的に運用できません。SANが安ければ何の問題も無いのですが
  • Cometと同時接続数制限 - Blog by Sadayuki Furuhashi

    HTTPプロキシを通してCometサーバーに接続する場合や、1つブラウザで複数のタブを開いてCometサーバーに接続する場合、同時接続数制限が問題になる。 Cometでは1つのリクエストに対して応答を遅らせるため、クライアント1台がコネクションを1占有してしまう(pipeliningが無い場合)。 またRFC 2616に、サーバーに対して2コネクション以上張らないようにするべきと書いてある。 ここで、HTTPプロキシの裏に複数のクライアントがいる場合などは、クライアントが3台いるのに2しかコネクションが使えなかったりする。そうすると1台はリクエストをサーバーに投げられず、サーバーからメッセージを受け取れない。また、クライアントからサーバーへメッセージ送れなくなってしまう。 サーバーから見ると、クライアントがいなくなったのか、同時接続数制限でリクエストが到達しなくなってしまったのかは区別

    Cometと同時接続数制限 - Blog by Sadayuki Furuhashi
    tinsep19
    tinsep19 2008/12/28
    ブラウザやHTTPプロキシの挙動を調べてみると、同時接続数の制限は、サーバーのホスト名に対してかかるらしい。1台のサーバーをいろいろなホスト名で引けるようにしておけば、同時接続数制限を回避できる。Lingrもこの方法を使っているらしい
  • 1