タグ

ブックマーク / techblog.yahoo.co.jp (7)

  • 時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータサイエンティストをしております、田辺 広樹(ざるご)です。 時系列ビッグデータに対しては、オフライン評価の実施にあたって、学習時とは異なる操作を行う必要があります。弊チームでは従来、これらに対して、書き捨ての集計クエリ、Python スクリプトを作成することで対応を行っていました。 記事では、これらの操作を自動化し、オフライン評価のための工数を削減した取り組みをご紹介します。 前提: Yahoo!広告における機械学習パイプライン Yahoo!広告では、時系列ビッグデータを用いて、ヤフーの AI プラットフォーム上で広告配信コンバージョン率(CVR)予測モデルを学習し、広告配信に活用しています。

    時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)
    xiangze
    xiangze 2023/09/02
  • BERTを用いて膨大なコンテンツにメタデータを自動付与する 〜 Yahoo!ショッピングの商品属性推定

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所の鍜治です。 みなさんはコンテンツにメタデータを付与したいとき、どのようにしていますか? もちろん手作業で付与することもできますが、コンテンツ量が膨大なときには、自動的にメタデータを付与できる仕組みがあると便利だと思いませんか? 私がリーダーを務めている研究開発チームでは、Yahoo!ショッピングの商品に属性というメタデータを自動付与するため、BERTを用いた商品属性推定モデルを開発しています。記事では、そもそも商品の属性とはどういうものなのか、どのようにBERTを使っているのか、既存モデルと精度はどのくらい違うのか、などについてお話したいと思いますので、よろしくお願いします。 Yaho

    BERTを用いて膨大なコンテンツにメタデータを自動付与する 〜 Yahoo!ショッピングの商品属性推定
  • 大規模言語モデルを使って広告文を自動生成する

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。MS統括部の宋です。自然言語処理分野において、GPT-3ChatGPTなどの大規模言語モデルが次々開発され自然な文書が生成できることで話題になっています。私が所属するデータインテリジェンス部では大規模言語モデルを使った広告文の自動生成に取り組んでいます。記事では広告文自動生成の仕組みと業務で活用できるように工夫した点についてお話しします。 取り組みの背景 検索連動広告(検索したキーワードに連動して表示される広告)を利用している広告主はユーザーが興味を持ってくれる広告文を日々考え、改善しています。私たちのチームは広告効果の改善を目的としたソリューションをData Marketing Solution(DMS)として

    大規模言語モデルを使って広告文を自動生成する
    xiangze
    xiangze 2023/02/19
  • 機械学習の階層モデルの適用でコールドスタート問題に対処する 〜 広告コンバージョン予測の事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーのディスプレイ広告(運用型)でデータサイエンス・機械学習エンジニアをしている高橋です。この記事では、機械学習における学習データ不足から生じるコールドスタート問題に対して、安定して学習・推論するための技術を紹介します。また、ヤフーのディスプレイ広告でこの技術を適用した事例をご紹介いたします。 コンバージョン予測の役割 みなさんの担当されているサービスにおいて、申込み完了率や商品購入完了率といったコンバージョンを高めたいシーンは多く見受けられるのではないでしょうか?あるユーザがコンバージョンしやすいか否かを推定できるようになると、よりコンバージョンしやすいユーザに優先的にサービスを提供できるようになります。特に、広告

    機械学習の階層モデルの適用でコールドスタート問題に対処する 〜 広告コンバージョン予測の事例
    xiangze
    xiangze 2022/11/21
  • ヘアスタイルをシミュレーションする独自AIのアプリ導入 〜 Core MLとVision Framework活用事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは! エンジニアの田中と池上です。 このたび、Yahoo! BEAUTYのiOSアプリにヘアスタイルシミュレーション機能を搭載しました。Yahoo! BEAUTYに投稿されたヘアスタイル写真から気になったスタイル、カラーが実際に自分に似合うかどうかをシミュレーションできる機能です。この機能はヤフーが独自に開発したAIで実現しています。 今回はCore MLとVisionといったiOSのフレームワークをフル活用することでこのAIをiOSアプリに搭載し、オンデバイスで機能を提供しています。これにより、みなさんの顔画像をサーバーに送ることなく、プライバシーに配慮した仕組みを実現しています。 具体的には下記の流れでシミュレーション

    ヘアスタイルをシミュレーションする独自AIのアプリ導入 〜 Core MLとVision Framework活用事例
    xiangze
    xiangze 2022/08/30
  • 高次元ベクトルデータにおいて高速な近傍検索を実現するNGTの公開

    Yahoo! JAPAN研究所の岩崎です。 私は主に特定物体認識の研究開発を行っていますが、その一方で特定物体認識において必須技術である高次元ベクトルデータの近傍検索の研究開発も行っています。近傍検索の一種であるk最近傍検索とは、クエリとしてベクトルデータが与えられた時に、クエリと空間内に点在するベクトルデータとの距離に基づき近い順にk個のデータを検索する、ことです。kが5の場合の最近傍検索の例を図1に示します。図中の数字は距離の順位で、青い点が検索結果となるデータです。 空間内のすべてのデータとの距離を計算すると時間がかかるので、高速化のためにインデックスを利用します。インデックスを用いることにより数次元といった低次元のベクトルデータ空間では高速な検索が比較的容易に実現できます。しかし、インデックスを用いても100次元を超えるような高次元ベクトルデータの場合には高速に検索することが困難と

    高次元ベクトルデータにおいて高速な近傍検索を実現するNGTの公開
  • scikit-learnでよく利用する関数の紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。ヤフーで広告プロダクトのデータ分析をしている田中と申します。 今回のAdvent Calendar 2014では、データサイエンスのプロセスの中の「分析・モデリング」で私がよく利用しているツールについて書いています。 どうぞよろしくお願い致します。 データサイエンスのプロセスについては、いろいろと定義があると思いますが 基的に以下の5つのプロセスからなると自分は考えています。 ・問題設定 ・データ抽出・加工 ・分析・モデリング ・評価 ・ビジネス提案/プロダクト実装 どのプロセスもとても大事で、例えば「問題設定」では、ビジネス的な課題(売上低迷・KPI低下)を分析課題に落とすのですが、ここを間違えてしまうと

    scikit-learnでよく利用する関数の紹介
  • 1