sh19910711のブックマーク / 2022年12月1日

BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS

目次はじめに自己紹介内容概要基本設計 TCVのビジネスモデル施策内容システム構成フェーズ１: とりあえずAutoMLを使ってみるフェーズ２: 目的変数を変えるフェーズ３: BigQuery MLの導入による検証高速化フェーズ４: 国別フェーズ５: 回帰ではなく分類へフェーズ６とその先へおわりにはじめに自己紹介じげん開発Unit データ分析基盤チームの伊崎です。開発Unitは特定の事業部に所属しない全社横断組織です。その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。プライベートでKaggleに参加し、銅メダルを獲得した経験があります（最近は活動

sh19910711 2022/12/01

"BigQuery MLの導入による検証高速化 / AutoMLは最終的なモデルを得るためのみに用い、そこまでの試行錯誤は普通のGBDTでやりたい / 最終的なモデル作成はBigQuery MLのAutoMLモデルを利用"

リンク

p値とは何なのか？ - jnobuyukiのブログ

今回は、統計学の知識があまりない人向けの記事にしようと思います。昨今のデータが社会中に溢れている環境では、データから上手に自分の知りたい情報を抜き出せるかどうかが重要だと思います。その時に、統計学に基づいた意思決定やデータの解釈を行うのが良さそうに見えます。そこでデータ分析が必要になるわけですが、自分自身に統計学の知識がなければ、他の人に分析をお願いすることもあるでしょう*1。今回は統計用語をできるだけ使わずに、でも統計学の知識の使い方に関するイメージをお伝えしたいと思います*2。 p値のpは？ pは確率、probabilityを表しています。確率なので、pは0から1の値をとります。何の確率なの？ここがとても理解しにくいところです。まずは、これが「ある仮定の元で現在手にしているデータが観察される」確率と考えましょう。確率が高いということは、その仮定の元で今持っているようなデータが出てき

sh19910711 2022/12/01

2021 / "ある仮定の元で現在手にしているデータが観察される確率 / ある仮定のもとで今持っているデータが出てくる確率が十分に低い + しかし、実際にそのデータを持っている + 元の仮定自体が誤りであるとした方が自然"

*data
統計

リンク

しれっと登場したVPC Latticeって何者!? よく分からんから3行で頼む！ - Qiita

こいつを解説します。凄そうな新機能ですが、AWS re:Invent 2022 2日目のキーノート終了後にしれっとアップされたのみで正体不明！一言で VPC Lattice ＝「どこでもALB」です。 3行で基本的には「ALBの集合体＋それらをまとめるハブ」みたいなもの。コンピュート系リソース同士をアプリケーション層で相互通信＆ルーティング＆アクセス制御できる。複数のAWSアカウントやVPCから相互乗り入れできる。解説 Latticeは「格子」という意味だそうです。マイクロサービス間通信などの文脈で使われる「Mesh」に近い命名なのかも知れませんね。上記のAWS News Blogを読み解き、ポンチ絵を描いてみました。仕組み HTTP/S、gRPCプロトコルで接続が提供される Latticeのコンポーネントとして「サービスネットワーク」の配下に「サービス」を作って使う

sh19910711 2022/12/01

"VPC Lattice: re:Invent 2022 2日目のキーノート終了後にしれっとアップされた / 複数のAWSアカウントやVPCから相互乗り入れできる / マイクロサービス間通信などの文脈で使われる「Mesh」に近い命名なのかも"

リンク

データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog

はじめまして、エンジニアの黒瀬と申します。弊社では、これまでバックエンドの監視にNew Relicを利用してきましたが、今回データ基盤にも導入を開始しました。この記事では、その経緯についてご紹介したいと思います。背景と課題弊社ではTVerのサービス利用状況を日々収集し、それをBigQueryを中心としたデータ基盤に集約・可視化することで、日々のサービス改善に活用しています。このプロセスは、おおむね次のような役割分担となっています。収集処理：バックエンドを担当するバックエンドチームがAWSに構築集約処理：データ基盤を担当するデータチームがGCPに構築これらのうちデータチームでは、集約処理を構成するバッチごとにアラートを実装していましたが、下記のような問題がありました。バッチごとに異なった方法でアラートを実装していたため、保守がしにくいアラートの通知先が散らばっており、毎回

sh19910711 2022/12/01

"BigQueryを中心としたデータ基盤 / バッチとしてはCloud Loggingにエラーログが出しておくだけで済むようになり / 収集処理: バックエンドチームがAWSに構築 / 集約処理: データチームがGCPに構築"

リンク

BigQueryで再帰クエリを使いこなす - 電通総研テックブログ

みなさんこんにちは、電通国際情報サービス（ISID）コーポレート本部システム推進部の佐藤太一です。先日、TECHPLAYでDataflowに関連するお話をしました。その日の模様が公開されていますので、ご興味のある方は是非ご覧ください。 techplay.jp さて、このエントリではBigQueryにおいて利用できる再帰クエリ（WITH RECURSIVE句とUNION ALL）について紹介します。再帰クエリを使うと、表形式しか扱えないRDBにおいて木構造のデータを扱えます。木構造のデータとは、例えば会社における組織図のようなものを想像してください。ちなみに、Oracleなら再帰クエリはSTART WITH句とCONNECT BY句で実現していましたよね。前提となるデータデータを定義するクエリデータを投入するクエリ一番簡単な再帰クエリ再帰クエリに配列を導入する再帰クエ

sh19910711 2022/12/01

"BigQueryにおける再帰クエリの使い方について / Oracleなら再帰クエリはSTART WITH句とCONNECT BY句で実現 / 再帰クエリを使う上で配列と組み合わせることはある種のイディオム"

リンク

携帯メールで PC サイトを読む - Wisteria::Diary

っていうサービスを作りました。タダだべたとえばヨ○バシカメラで衝動買いしそうになったとき、ふと立ち止まって kakaku.com を調べたい。でも、そんなことでパケット代を払いたくない。たとえば本屋の棚の前でどれを買うべきか迷ったとき、すでに買った人のレビューを Amazon で読みたい。でも、そんなことでパケット代を払いたくない。たとえば電車の中でふと変なアイディアが閃いたとき、誰かが同じことを考えてないか Google で探したい。でも、そんなことでパケット代を払いたくない。「メールだったらタダなのに……」そんなガ●ガ●メール厨*1の呟きに答えて「タダだべ」は生まれました。もともと自分用に作ったサービスですが、せっかくなので誰でも使えるようにしてあります。興味のある方はご利用ください*2。先行作品の紹介今回も、私のソフトウェア開発がいつもそうであるように、市場調査も何も

sh19910711 2022/12/01

2010 / "ヨ○バシカメラで衝動買いしそうになったとき、ふと立ち止まって kakaku\.com を調べたい。でも、そんなことでパケット代を払いたくない / 「メールだったらタダなのに……」そんなガ●ガ●メール厨の呟きに答え"

リンク

Google Keepを活用したFutureInsight流ブログ執筆術 - FutureInsight.info

長くブログ書いている人って珍しいみたいで、たまにどうやってブログ書いていますか？と聞かれることがあります。実は結構試行錯誤していて、あまりこれだという最終形の書き方があるわけではないのですが、自分なりの最近の書き方を紹介してみます。本当は僕も、どこかイベントに行ったり、美味しいもの食べたりしたのをレポートしてみたいのですが、ほぼ毎日が自宅と会社の往復で過ぎており、土日もほぼ育児なので、まぁ、外食しませんし、ブログのネタになるようなところにはほぼ行きません。そんなわけで、皆様が見ているようなブログに、つまりニュースや本を読んで、日々気づいたことを自分なりに解釈してまとめるようなブログになっているのですが、この類のブログを長く続けている人って結構レアだと思うので、今のブログの書き方を紹介してみます。まず、自分の実感としてブログ書くときに一番無駄なのは、ブログのネタを探してネットサーフィンす

sh19910711 2022/12/01

2014 / "Google Keepの良さ: どんなネタがあるのかすぐに俯瞰できる / 面白かったURLを貼り付けておいて、そのURLを起点にどんなネタを書くのかをふくらませていく / ポストイット風のUIはこのまとめなおすって作業にフィット"

リンク

ETLフレームワークとジョブ管理 - wyukawa's diary

Treasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。 Managing the Data Pipeline with Git + Luigi - Treasure Data Blog リンク先の記事を僕なりに要約すると、データやそれを加工するスクリプトがちらばって管理が辛くなり、エラーが起きた時のリカバリが難しい。 ↓ それを解決するETLツールというのもあって、例えばGUIでフローチャートみたいなのを書いてデータの加工処理を行うことができる。 ↓ それだとバージョン管理できないし、ビッグデータにフィットしないケースもある。 ↓ そこでGitとLuigiを使ったData Pipelineが良いよ！紹介されているコードの例がこちら。 Hiveで集計してTDのテーブルにinsertするのがTas

sh19910711 2022/12/01

2015 / "Luigi: Azkaban, Rundeck, JP1のようなジョブ管理ツールだと最初思ったのですが、ドキュメントを軽く読んだ限りではETLフレームワークでむしろembulkに近いのかなと思いました"

リンク

SNSは「読みやすさ」の前に「書きやすさ」が重要という結果

2013年1月21日(月) 16時19分01秒 [ネット生活] SNSは「読みやすさ」の前に「書きやすさ」が重要という結果 mixiに日記を書く最大のメリットだった「足あと」機能がなくなって久しいですが、今月末から、ようやく「訪問者」機能がリアルタイムに更新されるようになり、従来の「足あと」と同様のサービスが復活します。それに先駆けて、mixiが「なぜ足あと機能を廃止したのか」・「なぜ足あと（と同等の）機能を復活させることにしたのか」を、mixiのアクセス解析結果と共に公開しています。 ■第1回『足あとから訪問者に変わった経緯』 ■第2回『訪問者のリアルタイム化を実施するに至った経緯』 ■第3回『訪問者のリアルタイム化について』と『今後の方向性』上記は、「一般公開される設定」のmixiページで公開されているので、mixiにログインしていなくても読めます。これらの3つを読むと、mix

sh19910711 2022/12/01

2013 / "足あと機能を廃止すれば閲覧履歴が残らないので閲覧しやすくなるはず > 足あと機能が廃止されたために閲覧履歴が残らず投稿しても反応が見えなくなった / ※もっとも、Twitterで呟けば事足りるようになった"

リンク

勉強会をtsudaる技術 - 弥生開発者ブログ

メリークリスマス！🎄 この記事はMisoca+弥生 Advent Calendar 2019の25日目です。 qiita.com 最終日の記事は、初日から24日ぶり2回目となる黒曜(@kokuyouwind)がお送りします。 💎 Ruby 2.7 will be released! ついに本日、Ruby 2.7 が正式リリースされますね！ Misocaでは id:eitoball の尽力により、すでにRuby 2.7対応のPull Requestがマージ待ちの状態です。年末までにリリースするかは未定ですが、遅くとも年明け最初の週にはリリースできると思います。また、アドベントカレンダー初日に書いたActivePattern gemとMethodMatchable gemも、Ruby 2.7.0がリリースされたら合わせてバージョンを上げる予定です。 Experimentalな機能とはいえ

sh19910711 2022/12/01

2019 / "セッション: スライド + トーク / スライドを見て「キーワード」を把握しつつ、その意味が文章として伝わるようにトークの内容をまとめる / この書き方だと、要点を抑えた短い文章に再構成できることが多い"

リンク

RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ

ナップサック問題へ強化学習を適用すると、どうなるのか気になったので試してみました。強化学習には、Ray に含まれている RLlib を使い、Jupyter Notebook 上で実行します。 Ray 0.8.7 今回のサンプルコードは http://github.com/fits/try_samples/tree/master/blog/20200922/ はじめに以下のようにして Ray と RLlib をインストールしておきます。（TensorFlow も事前にインストールしておく） Ray インストール > pip install ray[rllib] ナップサック問題今回は、以下のような価値と重さを持った品物に対して、重さの合計が 35 以下で価値の合計を最大化する品物の組み合わせを探索する事にします。価値重さ 105 10 74 7 164 15 32 3 235 22

sh19910711 2022/12/01

2020 / "ナップサック問題へ強化学習を適用すると、どうなるのか / 状態: 品物毎の個数 + 行動: 個数を操作 + 報酬: 価値の合計 / gym.Env: step で状態の更新と報酬の算出 / DQN: PPOTrainer の代わりに DQNTrainer を使うだけ"

リンク

はてなブックマーク

タグ

2022年12月1日のブックマーク (11件)

BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS

p値とは何なのか？ - jnobuyukiのブログ

しれっと登場したVPC Latticeって何者!? よく分からんから3行で頼む！ - Qiita

データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog

BigQueryで再帰クエリを使いこなす - 電通総研テックブログ

携帯メールで PC サイトを読む - Wisteria::Diary

Google Keepを活用したFutureInsight流ブログ執筆術 - FutureInsight.info

ETLフレームワークとジョブ管理 - wyukawa's diary

SNSは「読みやすさ」の前に「書きやすさ」が重要という結果

勉強会をtsudaる技術 - 弥生開発者ブログ

RLlib を使ってナップサック問題を強化学習 - なんとなくな Developer のメモ

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス