clavierのブックマーク - はてなブックマーク

アンケートを舐めてかかると死ぬ - Gunosyデータ分析ブログ

はじめにアンケートにおける注意点「何のためにこの質問をするのか」を明確にするできる限りバイアスを排除する質問文はわかりやすく、誤解のないようによく使う統計手法母比率に関する検定適合度の検定独立性の検定マン・ホイットニーのU検定（ウィルコクソンの順位和検定）おわりにはじめにおはようございます。BIチームの齊藤です。サンタさんには善玉コレステロールと来年1月末の某ライブのチケットをお願いしようと思います。マジで頼む。こちらの記事は Gunosy Advent Calendar 2021 の18日目の記事です。昨日の記事は同じくBIチームの田辺さんの「オンラインホワイトボードを使った振り返りで数値意識が向上した話」でした。Good Article！さて、みなさんは仕事でアンケートをとったことはありますか？ Webサービスでユーザー行動を分析する際には、各種の行動ロ

clavier 2021/12/20

data

リンク

Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標 - Gunosyデータ分析ブログ

はじめにこんにちは、DR&MLOps*1 チームの楠です！こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。本日は、データ分析の民主化を促進するためのデータレイク上での分析用データマートとしての Athena view の利用方法と、IaC のための Terraform による宣言的な Athena view の定義方法をご紹介します！はじめに背景前提知識: Athena における view Athena view の利点利点1. SQL と view カタログ定義のみからなるので、データ転送ワークフローを組まなくてよい利点2. テーブルのスキーマを容易に変更できる利点3. よく利用する共通テーブル式をきちんとテーブルとして定義

clavier 2021/12/13

リンク

施策の優先順位付けのために分析Dayを実施しました - Gunosyデータ分析ブログ

こんにちは、Gunosy Tech LabのMedia MLチームでマネージャーをしている id:skozawa です。もう年末、早いですね。こちらの記事は Gunosy Advent Calendar 2021の2日目の記事です。昨日の記事は加藤さんのチーム再編とCompany Betsでした。今日はMedia MLチームで施策の優先順位付けのために分析Dayを実施した話です。Gunosyでは6月から期が始まり、12月からは下期となります。そこで下期にやることの案出しと、出てきた施策案に対して優先順位の見積もりをするために分析Dayを実施しました。分析Day 分析Dayは2日間行いました。今は在宅勤務中なので1日目はリモートで行い、2日目だけオフィスに集まって実施しました。分析Dayの2日間は通常業務はせず、施策の効果などを見積もるための分析を分担しながら行いました。基本はSla

clavier 2021/12/03

リンク

その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ

はじめに Gunosy Tech Lab - Media ML のsuchidaです。最近はPythonの型アノテーションがないとあたふたする人生です。こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを実施しましたでした。さて皆さん、Pythonを利用する際に静的解析ツールを利用していますか？これは、コードを綺麗に保ち、保守運用を行いやすくするために非常に重要なツールです。本記事では、Pythonコードフォーマッターなどの静的解析ツールとその設定ファイルの管理方法について簡単に紹介します。静的解析ツールの導入チーム内では主に、アルゴリズムの開発・運用にPythonを利用しています。また、コードを綺麗に保ち、保守運用を行いやすくするためにコードフォーマッターな

clavier 2021/12/03

リンク

Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ

はじめに DRE Team の hyamamoto です．皆さん，Spark は利用されていますか？ Gunosy では Digdag + Athena によるデータ整形が増えてきており，徐々に Spark の利用は減ってきています．思い返すと，昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした．一方で，決して多くはないものの，この構成ではカバーし切れない処理もあり，そういったものに関しては Spark を用いています．話は少し飛びますが，DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています．また，一部のタスクは Kubernetes の Job として Digdag から投げることで，リソースをスケールさせつつ様々な処理が可能となっていま

clavier 2021/04/28

リンク

MLOps 海外テック企業の事例とフレームワークの紹介 - Gunosyデータ分析ブログ

はじめにこんにちはGunosy Tech Labの森本です。現在MLOps基盤を再整備しています。そこで調査した海外 Tech企業の事例やMLOpsのフレームワークを紹介します。 Gunosy Tech LabのMedia MLチームではニュースアプリ（グノシー、ニュースパス、ルクラ）やクーポンアプリ（オトクル）の推薦アルゴリズムの改善を中心に機械学習を活用してアプリのサービス改善を日々行っています。過去にはチームが独立しており開発者も少数であったことから各チームがJupyter Notebook等でオフライン実験を行い、良い結果のものは本番環境に適用するためプロダクションコードを書き、レビューを行い、本番環境でA/Bテストするという流れでした。最近は開発者の人数も増え横断的にアプリのサービスを改善しているので、より効率的なMLOps基盤が求められています。はじめに MLOpsとは実現

clavier 2020/04/07

リンク

より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ

はじめにこんにちは、Gunosy Tech LabのBIチームに所属しているクボタです。 Gunosyではアプリ内のロジックやUI等の変更において数値ベースでの意思決定を行なっています。例えば新たなキャンペーンでのCVR増加やUI変更によるA/Bテストでのクリック数増加の効果検証などで統計的に裏打された手法を用いることで正しく意思決定を行うことを目指しています。 data.gunosy.io 本記事ではそのような状況で必要となるサンプルサイズの設計や統計的仮説検定のお話をさせていただきます。はじめに検定手法の選択統計的仮説検定の手順比較する指標の選定帰無仮説と対立仮説の決定検定統計量の選定有意水準の決定検出力の決定効果量の決定サンプルサイズの計算ノンパラメトリック検定多重比較おわりに参考文献検定手法の選択数値による意思決定を行う際に検定はよく利用され

clavier 2019/09/12

リンク

DeepなFactorization Machinesの最新動向 (2018) - Gunosyデータ分析ブログ

はじめにこんにちは。研究開発チームの関です。最近毎週日曜日の恋するワンピースの更新を楽しみに生きています。好きなツッコミは「この船の航海士は誰？」です。あと虹のコンキスタドールのベストアルバム「THE BEST OF RAINBOW」は皆さん買いましたか？健康にいいので毎日聞きましょう。この記事はGunosy Advent Calendar 2018の22日目の記事です。昨日はcou_zさんの「【年末年始に読みたい】Gunosyエンジニアが2018年に購入した書籍まとめ」でした。皆さんFactorization Machinesは好きですよね。予測モデル構築においてはXGBoostと並んでとりあえずやっておくべき手法として知られています。今回のエントリではKDD2018で発表されたxDeepFMを読み解きながら、 DeepなFactorization Machineの現状

clavier 2018/12/25

リンク

ニュースパスを支える関連記事推薦と近似近傍探索 - Gunosyデータ分析ブログ

こんにちは。メディアロジック分析部の米田 (@mathetake) です。今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。特に、約半年前に私が導入しKPIの改善に成功した新しいアルゴリズムと、そこでコアとなる近似近傍探索(Approximate Nearest Neighbor search)の技術について述べます。関連記事推薦とはこの記事で紹介する関連記事推薦とは、「特定のニュースに関連したニュースを推薦すること」です。より具体的には、特定の記事をクリックした後に記事閲覧画面を下にスクロールすると登場する「おすすめ記事」の枠に対して、関連したニュースを検索して表示することを指します: このような枠が設置されている事は一般的なアプリケーションにおいてごく自然ですが、推薦シ

clavier 2018/09/27

あとで読む

リンク

RedshiftとBigQueryでよく使うSQLの違いTips - Gunosyデータ分析ブログ

データ分析部インターン生の小川です。インターンでは主に動画収集のロジック実装に取り組んでいました。 Gunosyではログの管理にRedshiftとBigQueryを使用しています。サービスはAWS上で動いているものも多いので基本はRedshiftで、ログの量が多いものやアドホック分析に用いるものはBigQueryに格納しています。この2つのサービスでSQLの書き方が微妙に異なるところがあり、もどかしい経験をしたので、今回は、よく使うSQLの文法でRedshiftとBigQueryで表現が異なる所をまとめてみようと思います。 BigQueryの導入についてはこちらの記事をご覧ください。また、この記事ではBigQueryはStandard SQLで記述していきます。 data.gunosy.io 日付・時刻関数現在時刻(UTC) 現在時刻(JST) 現在の日付(UTC) 現在の日付(J

clavier 2018/03/01

あとで読む

リンク

BigQueryのクエリ課金額をslack通知する - Gunosyデータ分析ブログ

はじめにこんにちは、データ分析部の阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。 tech.gunosy.io 今回はBigQueryで課金額の高いクエリを投げると警告してくれる、課金警察というボットを作ったので紹介します。 BigQueryはクエリで使われるデータ量に対して従量的に課金されるため、クエリ毎の課金額が把握できると便利です。 Gunosyではエンジニア・非エンジニア問わず、インターン生でも自由にクエリを書いて分析できる環境となっているため、知らず知らずのうちに大胆なクエリが投げられることもあります。そのため、課金警察でクエリ毎の課金額をSlackに通知しお互いに監視して注意しようという意図です。どうやってやるか BigQueryにはクエリの

clavier 2017/11/22

リンク

プロダクト改善のためにウォッチしておくべき7つの指標 - Gunosyデータ分析ブログ

データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、また施策の効果検証といった主に2つの目的で使用しています。簡潔にするため、ユーザーとログインの2つのテーブルを使った算出できる指標のみを対象としています。また、これらの指標をどうやってプロダクト改善に役立てているのかということも少しではありますが、合わせて書いていきたいと思います。 DAU WAU(MAU) HAU 積み上げHAU 1ユーザーあたりのログイン回数登録N日後継続率登録日別N日後継続率前提今回のブログで紹介するSQLはAmazon Redshift上で動くSQLなので、MySQLやGoogle BigQuer

clavier 2017/07/04

あとで読む

リンク

Pandasによる実践データ分析入門 - Gunosyデータ分析ブログ

こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。今回はPythonのデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の３カテゴリに分けてご紹介していきます。 Pandasに関する基本的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transf orm) 時系列処理時間の丸め処理(round) 時系

clavier 2017/05/12

あとで読む

リンク

【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました - Gunosyデータ分析ブログ

gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。今日は4/12（水）に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読（これからの強化学習）データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP（マルコフ決定過程）における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習

clavier 2017/04/18

リンク

【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

こんにちは、データ分析部でバイトをしている子田（id:woody_kawagoe）です。ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。この組み合わせは非常に相性が良く、研究でも役立つと思います。そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基本的な流れ参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。またgithub上にJupyterで作成できるipynbファイルを置くと他の

clavier 2016/12/27

リンク

Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

はじめにこんにちは、データ分析部の久保 (@beatinaniwa) です。今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPython用スクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

clavier 2016/08/18

リンク

はてなブックマーク

タグ

ブックマーク / data.gunosy.io (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス