タグ

snowflakeに関するuokadaのブックマーク (7)

  • Support set column type for Snowflake connector by chenjian2664 · Pull Request #21395 · trinodb/trino

  • 7年使ったRedshiftから6ヶ月かけてSnowflakeへ移行した話 〜手の内全部お見せします〜

    SNOWDAY JAPAN 2023で「7年使ったRedshiftから6ヶ月かけてSnowflakeへ移行した話 〜手の内全部お見せします〜」というタイトルで登壇した資料です。 https://www.snowflake.com/about/events/snowday-japan-2023/?lang=ja 独自のテレビ視聴質データを利用したCM効果分析サービスを提供するREVISIO株式会社の片岡が、7年間使用してきたRedshiftからSnowflakeへ移行した際の手法やツール、検証内容や両DWHの差異などについて詳しく語りました。 スライド内で発表した移行ツールはOSSで公開中です。 https://github.com/tvision-jp/redshift-to-snowflake-migration-utils https://revisio.co.jp/

    7年使ったRedshiftから6ヶ月かけてSnowflakeへ移行した話 〜手の内全部お見せします〜
  • 軽量なTime-based ID生成器”shakeflake(仮称)”について - SmartNews Engineering Blog

    大平です。今回はさだまさしネタは特に無しです。 先日、サービスのクローラーで使用しているID生成器について置き換えを行いました。非常に地味な話になりますが、記事ではその辺の内幕の話をしたいと思います。 ID生成にまつわる苦悩 弊社ゴクロの提供しているSmartNewsは表向きはニュースアプリですが、裏側の仕組みは検索エンジンに近似しています。ユーザーの方々の興味関心や、アクセス傾向をクエリーとし、その内容に応じた話題のニュースを検索結果として返却する、という風に捉えていただくと、なんとなく私が言わんとしている事を想像していただけるかと思います。 SmartNewsはTwitterのつぶやき情報を用いたトレンド分析をベースとしており、話題になっているニュースを選定するためには、大量のTwitter上のtweet、ならびにその中に含まれているURLに対してクロールを行う必要があります。日々配

    軽量なTime-based ID生成器”shakeflake(仮称)”について - SmartNews Engineering Blog
  • スケーラブルな採番とsnowflake — Kyrt Blog

    snowflake は、Twitter 社が作成した、ユニークなID生成のネットワークサービスです。いくつかの簡単な保証で高いスケーラビリティを実現しています。Twitter 社が、MySQLから Cassandra に移行するにあたって、Cassandra にシーケンシャルな id 生成の仕組みが無かったことから作成したそうです。 snowflake についてはTwitter IDs, JSON and Snowflakeに書いてあります。 snowflake のコードは、Apache License, Version 2.0 でSnowflakeに公開されています。 スケーラブルな採番、背景的な話 Cloudでスケーラビリティのあるサービスを見据えてコードを書いていると採番に関する問題が必ず出てきます。従来、RDBの自動採番などに頼っていたのがコスト、スケーラビリティ、耐障害性の観点か

    スケーラブルな採番とsnowflake — Kyrt Blog
  • ツイートID生成とツイッターリアルタイム検索システムの話

    Brainf*ckで実用的なプログラムが書けるようになろう!というスライドです. このスライドは関西情報系学生団体交流会の勉強会で用いたスライドを誤字訂正などの若干の修正を加えたものです. 勉強会の時間の都合上上級編はありません. 入門編:forループ,初期化,代入,値の移動,足し算,引き算,値のコピー,掛け算,スタック,再帰 初級編:ifイディオム,大小比較,割り算,配列 中級編:多倍長精度整数・多倍長精度浮動小数点数 番外編:Brainf*ckでメタプログラミング This document discusses the concept of "simple" and "easy" as it relates to programming languages and Clojure in particular. It explores the differences between co

    ツイートID生成とツイッターリアルタイム検索システムの話
    uokada
    uokada 2012/12/26
    idを8バイトで生成して格納してるのは1バイトでも小さくしないとtwitterクラスのサービスだとストレージの肥大化がハンパないからだろうな。
  • Snowflake的なID生成方法

    作っているプログラムでランダムなIDが必要となったため、ちょっとリサーチしました。久しぶりにJavaでコードを書いています。 UUID 完全に分散した環境で使用するのには、UUID(Universally Unique Identifier)が最適です。1IDあたり16バイトの容量が必要となる点をのぞけば、理想的なIDと言えると思います。ただIDは大量に使用されるので、16バイトというサイズはちょっと気になります。 Snowflake SnowflakeはTwitterが使用しており、Apache Licenseで公開しているID生成方法です。ある程度分散した環境でも、1IDあたり8バイトの容量で利用できます。また非常に重要な特徴としてIDの先頭部分にタイムスタンプ利用しており、生成されたIDはある程度時系列に並びます。8バイト、つまり64bitを下記のように振り分けて使用します。 先頭4

    Snowflake的なID生成方法
  • Twitterのstatus IDの仕組みが変わる

    これ一部の人にとっては大きな変化かもしれないんだけど あまり話題になってるのを聞かないし 検索しても日語の情報が見あたらなかったので書いておきます。 2010年の9月21日から Twitter の status ID の仕組みが変わる模様。 Status IDs are changing on 21st September – Twitter Development Talk | Google Groups これは Twitter のデータを扱うシステムを MySQL から Cassandra へ移行することによるものみたい。 Cassandra にはユニークな ID を生成する仕組みがないので、 status ID のようにソート可能な ID を利用するため 新たに Snowflake を導入するとのこと。 上記リンク先に細かいことが書かれてるんだけど、 これに関連する重要なポイントを

    Twitterのstatus IDの仕組みが変わる
  • 1