タグ

ログとデータに関するwasaiのブックマーク (2)

  • 1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

    自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ

    1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
  • 食べログの得点計算についてのポジティブな可能性を考えるー操作されたデータを検証する難しさー(井上明人) - エキスパート - Yahoo!ニュース

    久しぶりのyahoo個人への投稿となりますが、この記事を公開するのは、正直、気が重いな、と思いつつ、公開します。 というのも、今、べログに対して非常にネガティブな解釈が広がっているわけですが、何かしらポジティブな材料を提供するとなると、確実にいろいろ言われるだろうなあと思って気が重くて仕方がないのですが、ただ、人生の一時期、べログにハマっていた人間として、論点として提供されるべきポイントが、提供されていないと感じましたので、記事を公開する次第です。 ◆べログの評価点数分布の「不自然さ」 さて、近年、べログの点数評価アルゴリズムは、頻繁にその不正を疑われ議論になっています。 2016年には、評価アルゴリズムのリセットがあった際には、いくつかの店舗がいきなり3.0の点数にリセットされるなどといったことがあり、記事にもなりました。 そして10月8日に、藍屋えんさんという方が、ご自身のブ

    食べログの得点計算についてのポジティブな可能性を考えるー操作されたデータを検証する難しさー(井上明人) - エキスパート - Yahoo!ニュース
  • 1