yuisekiのブックマーク - はてなブックマーク

【Nishika】ヘイトスピーチ検出コンペに参加し、準優勝しました

はじめにこんにちは。新卒2年目の中間です。業務では主にレコメンドシステムの改善に取り組んでいます。今回は、2022年12月に終了したNishika社主催の「ヘイトスピーチ検出」という自然言語データを扱うコンペで準優勝することができたので、取り組みなどを紹介しようと思います。コンペURL: https://competition.nishika.com/hate/summary 解法URL: https://competition.nishika.com/hate/topics/416 コンペについて参加しようと思ったきっかけ私は、自然言語データを扱うコンペに何度か参加したことがありますが、その中でも日本語を扱うコンペにはあまり参加したことがありませんでした。そこで今回は、日本語を扱うコンペに参加することで、日本語に対する自然言語処理の知見を深めたいと思い、参加しました。タスク

yuiseki 2024/03/28

リンク

日本語CLIP 学習済みモデルと評価用データセットの公開

はじめに基盤モデルがAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す

yuiseki 2024/01/30

リンク

全社横断で「誰が何をやっているのか」を可視化する取り組み

この記事はリクルート ICT統括室 Advent Calendar 2023 18日目の記事です。こんにちは、ICT統括室の別府(@tky_bpp)です。この記事は、社内の情報流通を社内プロダクト起点で改善しようとしている取り組みの紹介です。具体的には「社内・社外に分散している情報」を集約することで「各従業員がこれまでどのような仕事をしてきたのか」を可視化しようとしている取り組みです。その中でも、主にプロセス、工夫した点について書いています。そのため、特定の技術スタック、ツールの紹介といった技術的な内容にはあまり触れません。同じような課題に取り組んでいる方にとって、少しでも参考になれば幸いです。はじめに私は現在、リクルートの社内で利用されている従業員検索システムのプロダクトマネージャーをしています。このシステムには、従業員毎の個人ページがあり、連絡先や所属部署、使用しているパ

yuiseki 2023/12/19

あとで読む

リンク

Two-Towerモデルと近似最近傍探索による候補生成ロジックの導入

はじめにこんにちは。Kagglerの中間と若月です。業務では主に人材領域でのレコメンドシステムの改善に取り組んでいます。この記事では、レコメンドシステムにTwo-Towerモデルと近似最近傍探索による候補生成ロジックを導入することで、精度とコストを改善することに成功したので、その取り組みについて紹介します。背景導入したロジックについて説明する前に、まず既存のレコメンドシステムについて簡単に説明します。既存のレコメンドシステムでは、ユーザとアイテムについてルールベースによる候補生成を行った後、機械学習モデルを用いてスコアを付与し、スコア順にユーザに推薦するアイテムを選択していました。しかし、ルールベースによる候補生成はベースラインとしてはよいものの、性能改善には限界があり、ルールベースが複雑になればなるほど計算コストもかかるようになっていきます。そこで、性能改善がしやす

yuiseki 2023/10/01

あとで読む

リンク

BigQueryによる最大内積検索の実装

はじめに機械学習エンジニアの本田志温です。最近担当した類似アイテム推薦の案件で、BigQueryを使って最大内積検索（MIPS; maximum inner-product search）1 を実装したので、その方法と高速化のテクニックを紹介します。類似アイテム推薦は「多数のアイテム候補から、クエリとなるアイテムに最も類似したK件を抽出する」というタスクなので、MIPSないし近傍探索の枠組みで解くことが一般的です。一定の規模を持つサービスでMIPSを実装しようとすると、アイテム数×特徴量次元の行列が何かと厄介です2。第一に、MIPSを素朴な行列積で実装すると、時間・空間計算量がアイテム数の2乗でかかってきます。典型的には空間計算量の方がボトルネックになりやすく、RAMの制約に収めるための工夫が必要になるでしょう。第二に、アイテム数が膨大な場合、特徴量マートから全アイテムの特徴量を転送

yuiseki 2022/11/05

あとで読む

リンク

AI開発の新たなパラダイム「基盤モデル」とは

さて、視覚・言語を扱う基盤モデルとしては、2021年の CLIP がブレイクスルーでした。CLIPはテキストと画像を同じ特徴空間に写像する2つのエンコーダからなります。CLIPを使うと、次のようにして任意の画像分類問題を追加の学習なしで解くことができます。まず、各候補クラスを文章の形式（例：「犬の写真」）にした後、テキストエンコーダに入力します。次に、分類したい画像を画像エンコーダに入力します。最後に、画像から得られたベクトルと候補クラスたちから得られた複数のベクトルとのコサイン類似度を計算し、最も類似度が高いクラスを出力結果とします。 CLIPによるゼロショット画像分類の方法。OpenAI Blogより引用 CLIPは画像とテキストというモードの異なる情報を意味的な近さによって結びつけることを可能にしました。CLIPを教師のようにして使うことで、テキストから画像を生成するモデルを訓練する

yuiseki 2022/07/05

あとで読む

リンク

「ホットペッパービューティー」美容クリニックでのElasticsearchのユーザー辞書登録による検索改善

クリニック検索では、Ngramと形態素解析を併用することにより検索結果のヒット数を担保しつつ検索ノイズの増加による悪影響をスコアソートにより軽微なものに抑えています。施術メニューピックアップのための全文検索では、検索ノイズが少ない形態素解析のみを利用しています。美容クリニックでの検索における問題形態素解析では、辞書に含まれている単語の集合に基づいて形態素が認識されます。 Sudachiの辞書において美容医療の専門用語が網羅されておらず、問題が発生します。形態素解析で専門用語がカバーされていない問題上記の表の通り、形態素解析では検索漏れが多いです。例えば、「ダーマペン」は美容医療では人気な単語ですが、Sudachiに搭載されているデフォルトの辞書ではカバーされていないので、形態素として抽出されません。形態素解析で期待通り認識・分割されない問題「二重」が「フタエ」でなく「ニジュ

yuiseki 2021/10/26

リンク

Stackdriver Traceの導入とCustom Tracing APIによる分析の詳細化 | Recruit Tech Blog

1.については、障害発生時に大きなアドバンテージになりますし、2.についてもパフォーマンス問題が発生した時に重要な手がかりとなります。

yuiseki 2019/12/18

あとで読む

リンク

React製のSPAのパフォーマンスチューニング実例

オンプレミスvSphere環境をOracle Cloud VMware Solutionへ移行した際にハマったところ 2023.12.24 コーポレート

yuiseki 2018/09/20

あとで読む

リンク

リクルートテクノロジーズ　エンジニアコース新人研修の内容を公開します（2018年度版） | Recruit Tech Blog

こんにちは、フロントエンド開発をリーディングしている古川 (@yosuke_furukawa)です。昨年、こちらのブログで新人研修の特別講座の内容を紹介したところ、大反響だったので、今年も公開します。リクルートテクノロジーズの新人研修 7月、リクルートテクノロジーズは新人の部署配属の季節を迎えました。 4月に(株)リクルートの新卒Web採用枠で入社した新人のうち、今年は20名が弊社に配属。3か月の研修期間を経て、早速現場での業務にあたってくれています。リクルートテクノロジーズでは、配属までの3か月間「ブートキャンプ」という技術研修を実施しています。ブートキャンプのコースは2つ。一つは、プログラミングやWebサービスの構造の基礎を学び、その後1つのスマホサイトを企画からリリースまで行うコース。もう一つは一定以上のプログラミングスキルと開発経験のある層向けに、より現場での技術に即し

yuiseki 2018/07/26

リンク

リクルートテクノロジーズ　新人研修特別編を公開します

こんにちは。アプリエンジニアの五味です。 2017年4月にリクルートホールディングスの新卒Web採用枠で入社した新卒社員のうち、21名がリクルートテクノロジーズに配属となりました。（いらっしゃい！）リクルートテクノロジーズでは「ブートキャンプ」と呼ばれる新卒社員向けの技術研修を3か月間実施しています。もともと高い能力を持つ彼・彼女らですが、「これからのリクルートをリードしていく存在」になって欲しいという期待を込め、プロとしての重要な立ち上がり期を支援しています。今年からは社外講師の既存プログラムに加え、より実践的な内容を求める経験者をターゲットに、総勢12名の現場エンジニアが担当する特別講座を開催しました。各分野のスペシャリストがこれまで現場で培ってきた「本当に必要な生きた知識・技術」のインプットは、彼・彼女らの成長を加速させ、これからのエンジニア人生の礎になってくれるものと僕らは

yuiseki 2017/06/07

あとで読む

リンク

A/Bテストに用いられる統計的検定手法（ロジック）のまとめ＆比較 | RCO Ad-Tech Lab Blog

リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら汎用人型雑用AIの stakaya です。たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ＆比較記事を発掘したので、このまま眠らせているのはもったいないぞと、圧倒的もったいない精神を発揮し、シェアさせていただきます。あの頃は私も若かった。社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。はじめに本記事は、施策の評価手法としてしばしば用いられるA/Bテスト（A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策（通常、A・Bと記載）を比較す

yuiseki 2017/04/26

あとで読む

リンク

「ビッグデータは“リアルタイム”でこそ価値がある」CETエンジニア吉田啓二氏インタビュー - Tech Blog - Recruit Lifestyle Engineer

2010年に英エコノミスト誌が取り上げてから、「Web 2.0」や「クラウド」に並ぶバズワードとして注目されたビッグデータ。それから5年が過ぎ、多くの企業が本格的に活用しようと試行錯誤しているように感じます。リクルートライフスタイルでは、グループ会社であるIndeed社の知見を生かして、新しいビッグデータのプロジェクト「CET（Capture EveryThing）」が発足。現在、ビッグデータ収集基盤の整備とサービスへの組み込み検証が急ピッチで行われています。『じゃらん』や『ホットペッパーグルメ』など国内有数の大規模サービスから、『Airレジ』などの新規サービスまでを運営するリクルートライフスタイルでは、どのようにビッグデータの活用に取り組んでいるのでしょうか。「CET」で基盤構築や分析・集計アプリケーションの開発を行っている、吉田啓二さんに聞きました。聞き手／構成／編集／写真：

yuiseki 2015/11/30

リンク

「AWSからGCPに切り替えたらコストが1/10になった」CETエンジニア吉田啓二氏インタビュー - Tech Blog - Recruit Lifestyle Engineer

前編（「ビッグデータは“リアルタイム”でこそ価値がある」）では、リアルタイムなビッグデータ解析プロジェクト「CET（Capture EveryThing）」が始まったきっかけから、いまのチームまで組織に焦点を当てました。後編では、いよいよビッグデータ解析のシステムについて深掘りしていきます。 Amazonのクラウドサービスを活用して作り上げた現状のシステムを捨て、Googleで作る構成に変えようとしているそう。その意図とは。クラウドサービスのコストパフォーマンスなど、エンジニアやアーキテクトには気になる情報が満載です。「CET」で基盤構築や分析・集計アプリケーションの開発を行っている、吉田啓二さんに聞きました。聞き手／構成／編集／写真：小川楓太（NEWPEACE Inc.） AWSで本格的に運用するのは厳しいかなという印象です ——　今回構築された基盤の具体的なシステム構成はどのよ

yuiseki 2015/11/30

リンク

Markdown で記述した API ドキュメントからお手軽にドキュメントサーバーとモックサーバーを生成する - Gulp で作る Web フロントエンド開発環境 #7 | PSYENCE:MEDIA

Markdown で記述した API ドキュメントからお手軽にドキュメントサーバーとモックサーバーを生成する - Gulp で作る Web フロントエンド開発環境 #7 wakamsha 2015.08.31 941 15687462236 2018年2月23日更新 : サンプルコードを ECMASCript 2015+ で書き直し、npm-scriptsでの例を加筆しました。 SPA 開発によるサーバーサイドとフロントエンドの完全分業化 Single Page Application ( 以下、SPA ) は従来のサーバーサイドレンダリングを基とした Web アプリケーションと異なり、iOS アプリや Android アプリと同じように Web API を通じてサーバーにリクエストを送り、JSON 形式などで返ってきたデータをもとにダイナミックにレンダリングすることで Web ページ全体

yuiseki 2015/08/31

リンク

Android Design Support Libraryを使う | PSYENCE:MEDIA

どうもこんにちは。Google I/O 2015 帰りの英単語サプリ担当田澤です。 Material Designを実現するためのAndroid Design Support Libraryが発表されました。これまではサードパーティーのライブラリを利用するか、独自実装してMaterial Design対応をする必要がありましたが、ついに公式でサポートされるようになりました。サポートOSバージョンはAndroid 2.1 以上となっています。そこで、本記事ではAndroid Design Support Libraryで追加されたコンポーネントと使い方を紹介します。また、各コンポーネントに関するDesign Guidelineのリンクも用意しているのでご参照ください。なお、ここで紹介しているコードは Github - android-SampleDesignSupportLib

yuiseki 2015/07/04

リンク

はてなブックマーク

タグ

ブックマーク / blog.recruit.co.jp (16)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス