タグ

ブックマーク / techblog.yahoo.co.jp (14)

  • 直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する(NGTのインデックスQGの紹介)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 高次元ベクトルデータの近傍検索エンジンNGT(OSS)の研究開発を行っているYahoo! JAPAN研究所の岩崎です。NGTを利用した類似画像検索や物体認識にも関わっています。グラフ構造型の性能ボトルネックを改善できる手法として、2021年1月にNGTのインデックスとして追加したQG(Quantized graph)を解説します。 他にも10億ものベクトルを検索できるQBG(Quantized blob graph)を2022年8月にリリースしているのですが、これは別の機会に解説します。 グラフ構造型インデックスの限界? ベクトル近傍検索には主にツリーやグラフ構造の手法と量子化による手法があります。NGTはグラフ構造型インデックス

    直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する(NGTのインデックスQGの紹介)
  • A/Bテストで想定外の結果が出たら?検定多重性の影響を定量的に分析する

    ※: 両側 p<0.10 (A/Bテストにおける有意水準) この場合まず疑うべきはA/Bテストシステムのどこかにバグがあることです。なんらかの理由で購入頻度の高いユーザがZ群にばかり割り当てられたり、統計処理にミスがありp値が実際よりも低く出てしまったりということがあれば、まったく差がない群の間で見かけ上CVRに有意差が出てもおかしくありません。 しかしながらいくら調査してもシステム上の問題は見当たりませんでした。 『多重性の問題』の可能性があるも、それだけとも言い切れない A/Bテストにシステム的問題が見当たらない一方、統計手法的には1点問題がありました。それは検定多重性の問題です。検定多重性とは、3群以上の比較を行う際、当は有意差が無いはずなのに有意差ありとなってしまう確率が2群の時よりも上がってしまう現象です。 このA/Bテストシステムは2群間での比較を前提にt検定で実装されて

    A/Bテストで想定外の結果が出たら?検定多重性の影響を定量的に分析する
    mookie
    mookie 2023/07/21
    “検定多重性とは、3群以上の比較を行う際、本当は有意差が無いはずなのに有意差ありとなってしまう確率が2群の時よりも上がってしまう現象です。”
  • 間違った単語でも検索できる?Yahoo!検索のクエリスペル訂正機能の紹介

    クエリのスペルが間違っていると、ユーザーの意図通りの検索結果を返すことが難しくなってしまいます。 そのため、Yahoo!検索には、スペルの間違いを検出して自動的に訂正することにより、ユーザーが間違ったスペルで検索したとしても適切な検索結果を返すことができる仕組みが用意されています。このようにより良い検索体験を作るためにスペラーは開発されています。 どうやってスペラーを学習しているの? スペル訂正は古くから研究が行われているタスクで、性能の良い機械学習モデルがいくつも提案されています。そのため、学習データ(スペル間違いのクエリとその訂正結果の集合)さえ用意してしまえば、あとは既存の機械学習モデルを適用するだけでスペラーを作成することが可能です。 なお、スペル訂正の手法に関する体系的な解説に興味のある方は、例えば自然言語処理の著名な教科書「Speech and Languege Process

    間違った単語でも検索できる?Yahoo!検索のクエリスペル訂正機能の紹介
    mookie
    mookie 2023/06/03
    クエリログを利用したスペラー
  • SimCSEとベクトル検索で類似内容を掲出し、利便性を改善する(Yahoo!検索の関連検索ワードでの事例)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!検索で機械学習エンジニアをしている由川です。 Yahoo!検索では、ユーザーが入力した検索クエリに関連する内容を掲出する関連検索ワードという機能があります(検索結果ページ上部と下部にあります)。従来の方法では、この関連検索ワードを出したくても掲出できないケースがありました。記事では、高品質な文ベクトルを生成する手法SimCSEを用いて検索クエリと意味が類似する内容を掲出することで、関連検索ワード機能を改善させた事例を紹介します。 ※この記事で取り扱っているデータは、プライバシーポリシー の範囲内で取得したデータを個人が特定できない状態に加工しています。詳しくはYahoo! JAPAN プライバシーセンター

    SimCSEとベクトル検索で類似内容を掲出し、利便性を改善する(Yahoo!検索の関連検索ワードでの事例)
    mookie
    mookie 2023/05/08
    Apache Solrにベクトル検索のプラグインを利用してセマンティックサーチを実装
  • ユーザの地域考慮+機械学習モデルによるCTR改善 〜 ヤフー検索の入力補助機能での事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、検索統括部の山です。 Yahoo!検索では、入力補助機能の精度の改善をめざしています。検索クエリには地域によって検索数の分布が異なるものがあり、例えば「翔んで埼玉」というクエリは埼玉県を中心に検索数が多いです。そこで検索の入力を支援する機能にユーザの地域情報を用いるようにしたところ、CTR等の指標を改善できました。 記事ではこのユーザの地域情報を用いた施策の検討、オフライン検証、A/Bテスト、番リリースまで行った一連のプロセスを紹介します。先日開催されたYahoo! JAPAN Tech Conference(以下、YJTC)でお話しした内容をベースに、当日いただいた質問にもお答えします。 検索時にユーザを支援

    ユーザの地域考慮+機械学習モデルによるCTR改善 〜 ヤフー検索の入力補助機能での事例
    mookie
    mookie 2022/05/11
    全米を10地域に分け、地域別検索数 (ユーザと同じ地域からの検索数)を集計し、機械学習モデルの素性 (feature) に追加
  • Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善

    1.2 なぜDeep Metric Learningにしたか 改善前のモデルでも特徴量を頑張って作れば解決できないことはないとは思います。「地名、ジャンル等に引っ張られて、拠点名指定を無視してしまう」パターンでは、クエリを解釈するロジックを入れ、地名だということを理解して地名部分のみを拠点の住所とマッチングさせて、それ以外を拠点名にマッチングさせて、という具合で特徴量を作れば正解できる可能性があると思います。しかし、これは一例で全体的に精度を上げるにはさまざまなケースを人が考慮して特徴量を作っていく必要があるので大変です。 そこで、学習データ(クエリと正解拠点のペア)が大量にあることを生かして、DNN(Deep Neural Network)がよしなに学習してくれるのに期待しました。また、プロダクト化することを考えると遅くとも数百ミリ秒以内で応答する必要があるので、クエリと拠点側をそれぞれ

    Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善
    mookie
    mookie 2021/12/04
    Tensorflowではモデルに文字列の正規化やSentencePieceによるToken ID列化といった前処理も含めてTensorflow Serving(TFS)でServingできます
  • 2020年度末のCSS総まとめ!有用でオススメな覚えておくべき新仕様をコードと画像付きで解説

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちはお久しぶりです。Web標準黒帯(ヤフー内のスキル任命制度)の岡部和昌(@kzms2)と申します。 今回の記事はありがちな「たくさんの良さげなCSSのプロパティなどを羅列してひたすらまとめる」だけではなく以下の考えのもと、まとめた記事です。 岡部が「使うケースがある・覚えておくべき」と感じたオススメできる、または有用と判断したCSS 可能な限り2020年からブラウザに実装された、またはこれから実装されるCSS 比較的新しいまたはあまり使われている印象がないCSS 実際のコードや挙動、対応ブラウザを掲載 自分目線でみたコメントや使えそうな場面をできる限り丁寧に説明 つまり2020年に実装されたものを中心に、有益でオススメでき

    2020年度末のCSS総まとめ!有用でオススメな覚えておくべき新仕様をコードと画像付きで解説
    mookie
    mookie 2020/12/24
    CSSの最新動向
  • 表示速度を飛躍的に向上させるHTML/CSS最新仕様「content-visibility」「Lazy loading」「contain」をコード付き簡単解説

    これまではJavaScriptを用いて実装するしかありませんでしたが、ついにimgやiframe要素であればloading="lazy"を付与するだけで、簡単に実装できます。 <!-- 画像に適用する場合 --> <img src="pic.png" alt="画像の詳細" loading="lazy"> <!-- iframeに適用する場合 --> <iframe src="external.html" loading="lazy"></iframe>画面外では読み込みが発生しないので、必要になった時(画面内に要素が入りそうになった時)に読み込みが発生するのでパフォーマンスが向上します。 また画像についてはsrcsetを用いたレスポンシブな画像に対しても指定できますし、picture要素を用いてfallback形式でも記述できます。 <img src="normal.png" srcse

    表示速度を飛躍的に向上させるHTML/CSS最新仕様「content-visibility」「Lazy loading」「contain」をコード付き簡単解説
    mookie
    mookie 2020/09/09
  • ヤフー社内のデータ連携を爆速で構築する方法 #ApacheNiFi

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。寺田晃太朗 (@kotarotrd) です。 2018年4月に新卒でヤフーに入社し、データエンジニアとして働いています。 2019年10月に Apache NiFi Committer になりました。 私は昨年のAdvent Calendarで、注目するデータソリューション技術として「量子アニーリングがチョットワカルようになる記事」を書きました。 今年のAdvent Calendarの記事では、例えばそんなデータサイエンスを最大限に活用するために、データプラットフォームとしてデータ連携をどのように効率化できるかというテーマについて記事を書きます。 この記事では、Yahoo! JAPANのデータフロープラットフォームの役

    ヤフー社内のデータ連携を爆速で構築する方法 #ApacheNiFi
    mookie
    mookie 2019/12/24
    NiFi
  • GPS不要の屋内ナビゲーション手法をR&Dした話

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめまして。CTO室R&D部の鈴木と西と申します。よろしくお願い致します。 R&DとはResearch & Developmentの略で、Wikipediaによると "研究開発(けんきゅうかいはつ、英語: Research and development、R&D)とは、特定の対象を調査して、基礎学問の研究や、目的に応じた応用研究の模索、将来的に発展する技術などの試験を行い、技術的な優位を得るための活動である。" という意味だそうです。 私たちが所属する部はヤフーのさまざまなサービスが抱える課題や業界が注目する領域に対し、各メンバーの専門的見地から研究と開発を行い得られた手法や知見をサービスに還元することを目指しています。 今回わ

    GPS不要の屋内ナビゲーション手法をR&Dした話
  • Yahoo! JAPAN トップページを Atomic Design と React・Redux・TypeScript で作り変えたお話

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちはお久しぶりです。岡部和昌(@kzms2)と申します。 今回お話しする内容はタイトルでほぼ全部述べているのですが、PCYahoo! JAPAN のトップページを 2019 年 10 月 1 日に刷新、主に開発環境をアップデートした経緯と採用した技術に関してのお話です。 見た目に関しては特に大きな変化はなかったので、気が付かなかった方も多いのではないでしょうか? なぜ刷新したか Yahoo! JAPAN トップページは 2008 年 1 月 1 日に大規模なリニューアルを行いました。その頃からある程度の改修はあったものの、基的にはコードの継ぎ足しで修正を加えている状態でした。 (参照;Yahoo! JAPAN トップ

    Yahoo! JAPAN トップページを Atomic Design と React・Redux・TypeScript で作り変えたお話
    mookie
    mookie 2019/12/03
  • PredNetを用いた混雑レーダーの未来予測

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは、新卒1年目の三木です。 今回は、私がOJTの中で行った 「Deep Learningを利用した混雑レーダーの未来予測」 について紹介させていただきます。 「そもそも混雑レーダーってなに?」という方のために簡単にご紹介をすると、ヤフーが提供しているアプリの使用状況を元に、エリアにいる人数を推定し、ヒートマップとして地図上に投影したものです。以下の画像のように、混雑しているところが一目でわかります。 混雑レーダーへのリンク↓ https://map.yahoo.co.jp/maps?layer=crowd&v=3&lat=35.681277&lon=139.766266&z=15 今現在提供している混雑レーダーで

    PredNetを用いた混雑レーダーの未来予測
    mookie
    mookie 2018/03/06
    過去の混雑情報を画像化してDeep Learningで20分後の混雑「予測
  • 名古屋で機械学習の勉強会をやっています

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 勉強会お手伝い担当の iwasawa です。 今回は弊社の名古屋オフィスが会場提供をしている『機械学習 名古屋 分科会 ゼロから作る Deep Learning 読書会+ハンズオン』をご紹介させていただきます。 『機械学習 名古屋 分科会 ゼロから作る Deep Learning 読書会+ハンズオン』とは こんなの。 書籍『ゼロから作る Deep Learning』を輪読しつつ、合間にコードを書いたりする勉強会です。 『ゼロから作る Deep Learning』には Python によるサンプルコードが多く載っているのですが、この勉強会では Python だけでなく RubyJulia によるソースコードを提示することが定番

    名古屋で機械学習の勉強会をやっています
    mookie
    mookie 2017/07/27
    AnnexMLはマルチラベル分類問題に対し、高速かつ精度良く予測を行う分類器で58倍速い!! ヽ(゚д゚)ノ
  • 開いているお店検索

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括部の吉田です。Yahoo!ラボで、開いているお店検索をリリースしたので、ご紹介します。 開いているお店検索とは? 開いているお店検索は、営業時間や、定休日の情報から、 今、営業しているお店を検索できるものです。 過去や未来の日時に開いているお店も検索でき、時間の流れに沿って、開いているお店の移り変わりをアニメーションで見ることができます。 開いているお店検索の狙い 開いているお店検索では、営業時間や定休日の情報を、電話帳データを元にWEBページをクロールして抽出しています。 電話帳データは、多くの店舗情報があり、Yahoo!地図で検索できる店舗の多くは、電話帳データの情報に基づくものです。 しかし、電話帳デ

    開いているお店検索
  • 1