bohemianwayのブックマーク - はてなブックマーク

ヤフーにおける自然言語処理モデルBERTの利用

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所で自然言語処理の研究開発をしている柴田です。私は自然言語処理の研究と、最新の自然言語処理技術を社内のサービスに適用できるようにする開発の両方を行っています。今日は後者の話をします。この記事ではBERTというモデルに焦点をあて、BERTの概要と、社内でのBERTの利用、最後に具体例として検索クエリのカテゴリ分類について紹介します。 ※この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 1. BERTとは 2018年にGoogleからBERT (Bidirectional Encoder Representations

bohemianway 2021/12/21

it

リンク

Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善

1.2 なぜDeep Metric Learningにしたか改善前のモデルでも特徴量を頑張って作れば解決できないことはないとは思います。「地名、ジャンル等に引っ張られて、拠点名指定を無視してしまう」パターンでは、クエリを解釈するロジックを入れ、地名だということを理解して地名部分のみを拠点の住所とマッチングさせて、それ以外を拠点名にマッチングさせて、という具合で特徴量を作れば正解できる可能性があると思います。しかし、これは一例で全体的に精度を上げるにはさまざまなケースを人が考慮して特徴量を作っていく必要があるので大変です。そこで、学習データ（クエリと正解拠点のペア）が大量にあることを生かして、DNN（Deep Neural Network）がよしなに学習してくれるのに期待しました。また、プロダクト化することを考えると遅くとも数百ミリ秒以内で応答する必要があるので、クエリと拠点側をそれぞれ

bohemianway 2021/12/06

リンク

画像解析モデルでヘアスタイル検索を改善、Yahoo! BEAUTYのタグ精度向上 #機械学習

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で画像処理エンジニアをしている伊藤です。Yahoo! BEAUTYの検索改善に取り組みました。本記事では、画像解析による予測を通してヘアスタイルのタグづけ精度を上げる、という改善事例を紹介いたします。 Yahoo! BEAUTY ヘアスタイル検索とは Yahoo! BEAUTYのヘアスタイル検索は、自分の理想のヘアスタイル、スタイリストを探すためのサービスです。検索対象となるヘアスタイル画像は、主にスタイリストの方が説明文やタグなどを付けて投稿しています。一般ユーザーは、タグや条件を指定して検索します。検索結果は、グリッド表示でタグなどの情報情報が見えず、画像のみが表示されるのが特徴です。課題：検

bohemianway 2021/07/24

検索

リンク

ユーザー理解はどこまでできるのか？

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめにメリークリスマス！マーケティングソリューションズカンパニーのリサーチアナリシス部に所属している田中です。今日はコンバージョン予測の紹介と考察を行っていきます。まず、コンバージョン予測を選んだ理由について説明いたします。私は、ヤフーに広告を出稿していただいている広告主の課題を解決する部署に所属しているので、広告主の課題のひとつであるコンバージョン獲得をテーマにしました。広告主の課題をコンバージョン獲得と仮定すると、そのためにヤフーとしてはユーザーがコンバージョンをするのかどうかを理解する必要があります。コンバージョン予測はマーケティングへの適用範囲が広く、予測確率の高いユーザーに広告を配信したりそのユーザーの動き

bohemianway 2017/12/26

tech

リンク

細かすぎて伝わらないSSL/TLS

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 「細かいと言うより長いよね」はじめにこんにちは。ATS の脆弱性を発見した小柴さんや ATS に HTTP/2 の実装を行っている大久保さんと同じチームの一年目、匿名社員M さんからいじられている新人です。今回ありがたい事に、こういったすごい方々を含めモヒカン諸先輩方より「何か書かないの？」「いつ書くの？」という数々のプレッシャーお言葉をいただきました。というわけで、SSL/TLS の Session 再開機能に関して書いていこうかと思います。 SSL/TLS は機密性、完全性そして真正性に対して安全な通信を行うための仕組みです。しかし、この仕組みは暗号技術を多用し特に接続において複雑なプロトコルを用い、Client, Se

bohemianway 2015/01/27

リンク

レガシーコード改善勉強会　開催レポート

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog ヤフー株式会社の有地です。 9/27（土）の昼から6時間にもわたり、さまざまな視点から「レガシーコード」について知識を深めるための勉強会を開催いたしました。「そもそも正しい仕様を知っている人がいない」「システムのブラックボックス化が留まるところを知らない」こんな不条理なレガシーコード（テストコードが無いコード）と日々戦うエンジニアも多いことと思います。今あるレガシーコードをどうやって保守・改善していけばよいのかという課題に本気で取り組んでいる、または取り組みたいと考えている大勢の方々に参加していただきました。＜開催趣旨・目的＞テストコードが無いプロダクションコードをレガシーコードと定義し、テストコードによって保護され、

bohemianway 2014/11/02

開発

リンク

細かすぎて伝わらないmdbm

おまけ話として、mdbmはLinear Hashingと呼ばれるハッシュアルゴリズムの影響を強く受けています。 Linear Hashingの詳細はwikipediaをご覧ください。 http://en.wikipedia.org/wiki/Linear_hashing このアルゴリズムによりmdbmは、扱うデータサイズが大きくなれば、動的にHashTableを拡大することができる非常に便利な特性を持っています。しかし、冷静になって考えてみてみましょう。このLinear Hasingの管理用のテーブルを走査する計算コストは可能なら避けるべきです。 mdbmをはじめ、多くのKVSでは最終的なデータのサイズの予想がつくのであれば、あらかじめ大きめのサイズでデータベースファイルを作成する方が好ましいでしょう。この辺の話に興味がありましたら、コードの「hashval_to_pagenum()」