サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
data.gunosy.io
こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。 今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え
はじめに はじめに dbt はそもそもツールとして何を行なうか ELT における Transform について dbt が担っている機能 dbt は技術的にどのようにして Transform を実現しているか Jinja テンプレートによる SQL の生成 各種データ基盤に向けたデータ変換の手続きの抽象化 生成された SQL に基づくデータ変換の手続きの実行 さいごに DRE&MLOps チームの hyamamoto です。 最近は涼しくなってきて、秋の気配が感じられるようになってきましたね。 秋は一番好きな季節なので嬉しいです。 さて、今回は dbt について少し変わった切り口で紹介します。 今回の紹介において主眼に置きたいことは以下の内容です。 dbt はそもそもツールとして何を行なうか dbt は技術的にどのようにしてその機能を実現しているか その機能の結果 dbt はアプリケーショ
はじめに 背景とモチベーション ニュースキュレーションサービスとしての自動要約技術の重要性 事前学習済み言語モデルの急速な発展 自動要約モデルの作成 タスク設定 モデル データセット T5 の fine-tune 評価 自動評価 人手評価 推論の高速化 ONNX とモデル量子化 CPU を使用した推論速度と要約精度の評価 API 実装と slack bot 化 API 化 slack bot化 ChatGPT の登場 今後に向けて・おわりに はじめに こんにちは、 Gunosy Tech Lab (GTL) MediaML チームの大竹です。今回のブログでは、社内で運用されているニュース記事の自動要約システムについてご紹介したいと思います。 ニュース記事の本文から簡潔な要約を生成するシステムを作るため、データセットの収集から自動要約モデルの学習、サービスとして利用するための API 実装ま
はじめに 背景 課題 解決策:Incremental Trainingの導入 1, 特徴モジュール 2, モデルの継承 実験結果 まとめ はじめに こんにちは。Gunosy TechLab Ads MLチームのしょうえいです。 この記事は Gunosy Advent Calendar 2022 の22日目の記事です。 Ads ML側はユーザに興味がありそうな広告を洗い出し、レコメンドすることを担当しています。 今回は、導入する予定の新広告レコメンドモデルのオフライン実験で実践したIncremental Trainingについて話します。 背景 Gunosyではグノシー・ニュースパス・LUCRA・auサービスTodayという4つのプロダクトを展開しています。各プロダクトにおいては、ユーザに最適なニュースと記事を配信して情報を届けています。 同時に、サービスを継続的に運営するために、ユーザに興
こんにちは、Gunosy Tech Lab DR&MLOps チームの楠です。 この記事は Gunosy Advent Calendar 2022 の 11 日目の記事です。 昨日の記事は UT@mocyuto さんの『RailsのフロントをReactへリファクタしたとき、スキーマをOpenAPIベースの自動生成にした話』でした。 この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。 はじめに dbt とは? dbt についての参考資料 dbt snapshot とは? どんなときに使える? dbt snapshot のまとめ dbt snap
こんにちは、GunosyTechLab MediaML 所属 の suchida です。 急激に冬が近づいて参りましたね。 寒がりなので、ヒーター付き手袋を買いました。 キーボードも打てます。 おすすめです。 こちらの記事は Gunosy Advent Calendar 2022 の 3 日目の記事です。 前回の記事は nagayama さんの「Android の Kotlin Coroutines 導入の第一歩」でした。 tech.gunosy.io はじめに 問題 M1 Mac に TensorFlow がインストールできない Docker 環境でも厳しい CPU アーキテクチャの違いに躓かない開発環境づくり 開発環境 番外編: arm64 環境で amd64 のための pyproject.toml を作る方法 おわりに はじめに 弊社では、社員が使っている PC が古くなってきたタイ
はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR
Stable Diffusion を Windows 10 で動かすイメージ画像 (作: Stable Diffusion) *1 こんにちは。初めまして、Gunosy Tech Lab R&D の 森田 (pnnc205j)です。最近好きな牛肉の部位はカメノコです。 今回は、テキストから画像を生成する Stable Diffusion を Windows 10 で動かしてみましたのでご紹介します。 Stable Diffusion はルートヴィヒ・マクシミリアン大学ミュンヘンと Stable.AI の発表した、一般的なPCで動かせるほど軽量でかつ高品質な画像を生成できる画像生成モデルです。 とりあえず試したい人向け 必要環境 まずは Stable Diffusion の Weight(学習済みモデル)をダウンロード CUDA 環境の構築 WSL2(Ubuntu)のインストール (Win
こんにちは。GunosyTechLab MediaML 所属の suchida です。普段の業務では、記事配信アルゴリズムの開発を行っています。ここ最近は A/B テストの荒波が収まり、穏やかに開発を進めています。本ブログでは社内勉強会の一つである、"学んだことLT会"についての紹介とそこで取り上げられた本・記事の紹介を行いたいと思います。 学んだことLT会とは? 概要 "学んだことLT会"とは、新卒を中心とした若手メンバーが集まって開催している「業務内外で学んだことをフランクに共有しよう」という会です(通称:20〜22卒LT、雑LT)。 隔週に一度のペースでオンライン開催しており、10名程度のメンバーが各回2名ずつ持ち回りで資料作成と発表を行っています。ただ、各自の業務との兼ね合いであったり、発表したいことが特にない場合はスキップも自由*1、といったゆるめな会となっております。 基本的に
こんにちは。Gunosy TechLab R&D チーム リサーチインターン の北田 (shunk031) です。今回はようやく皆様にお見せできる、可愛い我が子(もちろん研究のことです)について書きます。 今回採録された論文の全体像:広告クリエイティブを最適なタイミングで停止するよう支援する深層学習を元にした枠組みを提案しました。 この度、私と研究開発チームの 関さん で取り組んでいた研究が MDPI 社が発行する Applied Science 誌 という論文誌 (査読付き journal article) に掲載されました。 www.mdpi.com 今回の論文は "Ad Creative Discontinuation Prediction with Multi-ModalMulti-Task Neural Survival Networks" というタイトルで、 配信効果が悪くなっ
はじめに アンケートにおける注意点 「何のためにこの質問をするのか」を明確にする できる限りバイアスを排除する 質問文はわかりやすく、誤解のないように よく使う統計手法 母比率に関する検定 適合度の検定 独立性の検定 マン・ホイットニーのU検定(ウィルコクソンの順位和検定) おわりに はじめに おはようございます。BIチームの齊藤です。 サンタさんには善玉コレステロールと来年1月末の某ライブのチケットをお願いしようと思います。マジで頼む。 こちらの記事は Gunosy Advent Calendar 2021 の18日目の記事です。 昨日の記事は同じくBIチームの田辺さんの「オンラインホワイトボードを使った振り返りで数値意識が向上した話」でした。Good Article! さて、みなさんは仕事でアンケートをとったことはありますか? Webサービスでユーザー行動を分析する際には、各種の行動ロ
はじめに 可視化で何を改善したいか 目的 1. 指標や施策・開発の関係を俯瞰できる 目的 2. 新たな施策を始める際の仮説立てと整理が行いやすくなる 実際に作ってみた 作ってみて おわりに はじめに こんにちは!BI チーム新卒*1の田辺です。こちらの記事は Gunosy Advent Calendar 2021 の 17 日目の記事です。 昨日の記事はくらさわさんの『VS Code の拡張機能を作ったけどもっと便利なやつがあったどころか標準機能にあった話』でした。 本日は、週次振り返りの数値確認にオンラインホワイトボードツールのMiroを導入した話をご紹介します! 確認する数値や可視化は多くの社員が目にするものですが、弊社では「八百屋にサンマは注文しねえよ」の精神により新卒でもこのような仕事ができるチャンスがあります。 可視化で何を改善したいか Gunosyではエンジニア・非エンジニアに
こんにちは。 GunosyTechLab の Ads ML チームの村田 (id:marice0819) です。ELDEN RING を PS5 でプレイしたいので PS5 を求めてるこの頃です。 こちらの記事は Gunosy Advent Calendar 2021 の14日目の記事です。昨日の記事は ism-kit さんの「Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標」でした。 今年の8月14日~8月18日にシンガポールで開催されていた KDD 2021 のワークショップである AdKDD に主に参加してきました。この記事では参加レポートとして KDD、AdKDD のアドテク関連の発表を中心にいくつかの研究と Keynote の紹介をしたいと思います。 AdKDD True Post-Click Conversion via Gro
はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。 昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。 本日は、データ分析の民主化を促進するためのデータレイク上での分析用データマートとしての Athena view の利用方法と、IaC のための Terraform による宣言的な Athena view の定義方法をご紹介します! はじめに 背景 前提知識: Athena における view Athena view の利点 利点1. SQL と view カタログ定義のみからなるので、データ転送ワークフローを組まなくてよい 利点2. テーブルのスキーマを容易に変更できる 利点3. よく利用する共通テーブル式をきちんとテーブルとして定義
はじめに アライアンス事業本部でニュースパス、auサービスTodayといったKDDI社と協業しているプロダクトのプロダクトオーナーをしている大曽根です。Chief Data Officerとしてデータ周りのあれこれも担当しています。プロダクトの詳細については、以下の記事を参考にしていただけると幸いです。 gunosy.co.jp こちらの記事は Gunosy Advent Calendar 2021 の12日目の記事です。 昨日の記事はazihsoynさんの「CUEを小さく使って環境別のYAMLファイルをtemplate化する」でした。 今回は A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは の第8章、「インスティチューショナルメモリとメタアナリシス」で紹介されているインスティチューショナルメモリについて当社の取り組みを紹介します。 はじめに インスティチューショナルメ
はじめに こんにちは、DR&MLOps チームの hyamamoto です! こちらの記事は Gunosy Advent Calendar 2021 の 6 日目の記事です。昨日の記事は楠さんの『SaaS Redash 終了に向けた対応と分析の民主化(方針編)』でした。 今回は前回記事の続編になるので、ぜひ前編から読んで頂けると幸いです。 前回の振り返り 前回の振り返りとして、SaaS Redash の終了に向けて、次のような方針を打ち出しました。 社内で Redash 環境を整備し、SQL によるアドホックな分析環境の整備 Amazon QuickSight を用いた、規格化された分析環境の整備 ここで、1 の方法については Redash が公式に提供する Helm Chart を利用することで解決します。 そこでこの記事では 2 を達成するに至った方法とその振り返りを示していきたいと思
はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 5 日目の記事です。 昨日の記事は UT さんの『更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜』でした。 5 日目と 6 日目では、DR&MLOps チームメンバーで前後編に分けて『SaaS Redash 終了に向けた対応と分析の民主化』をテーマにした記事をお届けします。 本日は、SaaS Redash サービスの終了に合わせて Gunosy ではどのような対応を執ったのか、その意思決定の部分をご紹介します! はじめに 前提知識・背景 Redash とは? SaaS 版 Redash の終了(End of Life) 方針1. 分析の方法と結果をシェアする文化を残したい 方針2. SQL を書かなくても分析の入り
はじめに Gunosy Tech Lab - Media ML のsuchidaです。 最近はPythonの型アノテーションがないとあたふたする人生です。 こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。 前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを実施しましたでした。 さて皆さん、Pythonを利用する際に静的解析ツールを利用していますか?これは、コードを綺麗に保ち、保守運用を行いやすくするために非常に重要なツールです。 本記事では、Pythonコードフォーマッターなどの静的解析ツールとその設定ファイルの管理方法について簡単に紹介します。 静的解析ツールの導入 チーム内では主に、アルゴリズムの開発・運用にPythonを利用しています。 また、コードを綺麗に保ち、保守運用を行いやすくするためにコードフォーマッターな
こんにちは、Gunosy Tech LabのMedia MLチームでマネージャーをしている id:skozawa です。 もう年末、早いですね。 こちらの記事は Gunosy Advent Calendar 2021の2日目の記事です。昨日の記事は加藤さんのチーム再編とCompany Betsでした。 今日はMedia MLチームで施策の優先順位付けのために分析Dayを実施した話です。Gunosyでは6月から期が始まり、12月からは下期となります。そこで下期にやることの案出しと、出てきた施策案に対して優先順位の見積もりをするために分析Dayを実施しました。 分析Day 分析Dayは2日間行いました。今は在宅勤務中なので1日目はリモートで行い、2日目だけオフィスに集まって実施しました。分析Dayの2日間は通常業務はせず、施策の効果などを見積もるための分析を分担しながら行いました。基本はSla
こんにちは、研究開発チームの飯塚です。11/1~11/5にオンラインで行われた、CIKM2021に発表参加しました。CIKMとはACM International Conference on Information and Knowledge Managementの略称で、機械学習やWebマイニング、情報検索/推薦といったトピックを扱う国際会議の1つです。今年のCIKMも、新型コロナウィルス感染症対策の観点からオンラインで開催されました。Gunosy社として、このCIKMに参加するのは初めてでした。本記事では、今回投稿した論文の経緯や概要、ニュースに関する他研究者の発表の一部をご紹介します。 投稿論文 近年オンラインメディアでは、タイトルや画像などを誇張したクリックベイト記事、ユーザーをミスリードするような釣り記事の問題が指摘されています。また、推薦システム側の問題としては、パーソナライゼ
はじめに こんにちは、Gunosy Tech Lab - Media MLの suchida です。 気温の低下とともに起床時間が遅くなってる今日この頃です。 早く春にならないかなぁ(笑)。 さて本記事では、知識辞書構築の自動化について紹介します。 特に記事配信システムの一部で利用している人名辞書について取り上げます。 人名辞書とは 人名辞書は、社内で独自に作成している知識辞書です。 具体的には、以下のように人名やグループに対してカテゴリの紐付けを定義している辞書です。 ちなみに、直近では約19万単語が収録されています。 さだまさし: エンタメ, ヨハン・クライフ: スポーツ, ジョセフ・スミス・ジュニア: エンタメ, ボリス・スパスキー: スポーツ, ルーホッラー・ホメイニー: 国際, この辞書は、Wikipediaのデータをベースに構築しています。 具体的には、Wikipediaにおけ
はじめに こんにちは、Gunosy Tech Lab - Media MLの suchida です。 2020年に入社して1年ちょっと経過しました。 在宅ワークは未だ継続中ですが、たまにWeWorkに出社して気分転換してます✨ 本記事では新プロダクト「auサービスToday」の開発において、Media MLチームが関わったことについて紹介します。 また記事ロジックの詳細については、別のブログで今後掲載予定です。 アプリイメージ auサービスTodayってなに? auサービスTodayとは、KDDI株式会社と共同で開発を進めているアプリです。 前身は「auサービスTOP」というアプリで、今回リニューアル開発に携わることになりました。 詳細については、以下の記事をご参考にしていただけると幸いです。 gunosy.co.jp www.appbank.net どんな開発に携わったの? 私の所属する
はじめに なぜマーケティングチームに配属された? マーケティングチームでやったこと グノシーのマーケティングチームはどんな仕事? 広告が配信されるまで マーケティング修行を終えて BIチームに合流してから OJT で、マーケティング修行は活きたのか? 最後に:入社4ヶ月を振り返って はじめに こんにちは。Gunosy Tech Lab BIチームに所属している新卒 田辺です。 今回は21卒新卒ブログの第二弾として、私がマーケティングチームに修業に行き、BIチームに合流するまでを紹介しようと思います。第一弾はこちらから読めます。 (※ちなみに配属ガチャを外した話ではありません。) data.gunosy.io BIチームはユーザーの行動分析や経営の意思決定支援を主な業務としています。ただデータを集計するだけでなく、プロダクト開発のための仮説立てや検証、施策のマネジメントなど幅広い場面で会社の
はじめに GTLという組織・Media MLチームについて 入社〜現在までの流れ OJT:スポーツタブのロジック改善 既存ロジック 改善までの道のり (1)パーソナライズアルゴリズム (2)記事wiseな時間減衰 学んだこと、気がついたこと コストの意識 タスク管理 コミュニケーションの重要性 1つのアプリを運用していくことのすごさ 研究で学んだことが生きる場 はじめに こんにちは!今年の3月に大学院の修士課程を修了し、4月に新卒としてGunosy Tech Lab (GTL) Media MLチームに配属になりました大竹です。本記事は、新卒エンジニアがそれぞれの視点から入社以降の取り組みやエピソードを紹介する新卒ブログの第一弾です。今年エンジニアとして新卒入社した同期は私を含めて4名おり、今後各人によるリレー形式で更新していきます。 GTLという組織・Media MLチームについて Gu
はじめに DRE Team の hyamamoto です. 皆さん,Spark は利用されていますか? Gunosy では Digdag + Athena によるデータ整形が増えてきており,徐々に Spark の利用は減ってきています. 思い返すと,昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした. 一方で,決して多くはないものの,この構成ではカバーし切れない処理もあり,そういったものに関しては Spark を用いています. 話は少し飛びますが,DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています. また,一部のタスクは Kubernetes の Job として Digdag から投げることで,リソースをスケールさせつつ様々な処理が可能となっていま
こんにちは、株式会社Gunosy新卒一年目の谷口です。3月15日〜3月19日に開催された言語処理学会第27回年次大会(NLP2021)に弊社からも「ポスター発表」・「スポンサーイブニング」・「ワークショップ登壇」という形で参加しました!本記事ではそちらについて述べていきます。 今年も一般参加者が集まるのは難しいということで、前年に引き続きオンラインによる開催でした。私自身、オンラインの学会に参加するのは初めてのため少し緊張と不安があったのですが、運営の方々のご尽力のおかげで滞りなく参加することができました。しかし、開会式でがらんとした会場が映し出されたときは何とも複雑な感情がこみ上げてきました。いつか皆さんと画面を通さずにお会いできることを心待ちにしております。 ポスター発表 「扇情的な記事判定に向けた定義作成とアノテーション」というタイトルで論文を投稿し、ポスター発表で参加しました。ニュ
こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 前回の記事に引き続き、グノシーのパーソナライズアルゴリズムを刷新した話について、アーキテクチャの部分を説明したいと思います。 前回の記事から読んでもらえると、パーソナライズの全体像が見えるのでおすすめです。 data.gunosy.io パーソナライズに求められるレスポンスタイム アーキテクチャ ユーザーと記事のベクトル生成とデータストアへの保存 ユーザーリクエストに対し適切な記事リストを生成する処理 どれくらい高速なのか おわりに パーソナライズに求められるレスポンスタイム 前回の記事ではモデルの学習方法やオフラインでの実験などをメインに説明してきましたが、オンラインで実際にA/Bテストするときに考えなければいけないのがレスポンスタイムです。 ユーザーに対して完璧にクリック非クリ
こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 この記事では、弊社で配信しているニュースアプリであるグノシーのパーソナライズアルゴリズムを刷新した話について書きたいと思います。 アーキテクチャの部分まで含めて記事にしてしまうと非常にブログが長くなってしまうので、本記事ではリアルタイム性の高い重要なニュース記事についてどのようにレコメンドするかについて注目して述べます。 アーキテクチャの部分についてはブログ後編のアーキテクチャ編にて書きたいと思います。 後編はこちら data.gunosy.io ニュースアプリのパーソナライズ グノシーにおける旧来のパーソナライズアルゴリズムとその課題 グノシーの新しいパーソナライズアルゴリズム オフライン実験とA/Bテスト おわりに ニュースアプリのパーソナライズ グノシーというニュースアプリで
はじめに おはようございます、BIチームの齊藤です。 この記事はGunosy Advent Calendar 2020の22日目の記事です。昨日の記事は板谷さんによるFitbitのカスタムレポートを作成してLINEに通知する でした。 はじめに 背景 ユーザーインタビューとユーザーテスト ユーザーインタビュー ユーザーテスト おわりに 背景 プロダクト開発では、「このプロダクト / 施策によってユーザーが〇〇という課題が解決されるのではないか?」「この改修を入れればユーザー体験は良くなるのでは?」などの仮説を持って開発を行うことが一般的です。しかし、ある課題に対する施策やアプローチの候補というものは大量に存在します。これらの中から 「う〜〜〜んこれが最高!これしかありえない!!!はい実装即リリース!!!!!」 と施策を選び取ることは常人には不可能です。そこで、単一または複数の施策に対して効
次のページ
このページを最初にブックマークしてみませんか?
『Gunosyデータ分析ブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く