サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Switch 2
blog.recruit.co.jp
はじめに 2023年10月にシニアリサーチャーとして入社したアドバンスドテクノロジーラボ(ATL)の梅谷俊治です。 2023年9月まで、大阪大学大学院情報科学研究科にて数理最適化寄附講座教授を務めていました。 本記事では、データ推進室に配属される新人を対象とした「最適化モデリング入門」をご紹介します。 データ推進室の新人は、部署に配属される前に「BootCamp」と呼ばれる研修を受けます。 この研修は約3ヶ月にわたり、エンジニアリング技術の向上だけでなく、ヒューマンスキルの育成や事業理解を深めるための幅広いプログラムが用意されています。 具体的には、データサイエンスの基礎、プログラミング、データベース管理の分野で徹底的なトレーニングが行われます。 例えば、PythonやRを使用したデータ解析の手法を学び、SQLを用いたデータベースの操作方法を習得します。 また、実際のデータ分析の問題を解決
はじめに はじめまして、2023年10月にシニアリサーチャーとして入社したアドバンスドテクノロジーラボ(ATL)の梅谷俊治です。2023年9月まで、大阪大学大学院情報科学研究科にて数理最適化寄附講座教授を務めていました。 本記事では、リクルートのデータ推進室における数理最適化を活用した問題解決の取り組みをご紹介します。 数理最適化は、与えられた制約条件の下で、目的関数を最小(もしくは最大)にする最適化問題を通じて、現代社会における意思決定や問題解決を実現する数理技術の一つです。 近年では、機械学習によるデータ分析や予測の技術開発が進み次々と実用化されています。数理最適化は、それらのデータ分析や予測の結果を踏まえた上で意思決定や計画策定を実現する問題解決における出口を担当する技術です。例えば、オンライン広告などカスタマーに商品を推薦するレコメンデーションでは、機械学習を活用してカスタマーの商
はじめに 基盤モデル がAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。 公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。 本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す
はじめに 検索エンジニアリング1グループ(以下、検索1G)所属の安達です。 検索1Gは検索基盤を開発・運用するグループです。 今回、新たな検索基盤を開発し、本番リリースしたのでその事例について紹介します。 どんな検索基盤か アーキテクチャ図は以下です。 検索1Gが管理しているリソースは、図中のSolrデータ更新バッチとフロントアプリケーションを除くすべてのリソースです。 このシステムは大きく3つに分かれています。フロントアプリケーションとの接続を担う検索動線、検索に使われるデータの更新を担当するデータ更新導線、そして検索エンジンです。それぞれの構成について見ていきます。 検索導線 EKS上の検索APIへリクエストをルーティングする。通常時は何も処理をせず1つの検索APIにリクエストを流す。オンラインA/Bテスト実施時にはグループを振り分けし適切な検索APIにリクエストを振り分けできる。また
はじめに こんにちは。Kagglerの 中間 と 若月 です。業務では主に人材領域でのレコメンドシステムの改善に取り組んでいます。 この記事では、レコメンドシステムにTwo-Towerモデルと近似最近傍探索による候補生成ロジックを導入することで、精度とコストを改善することに成功したので、その取り組みについて紹介します。 背景 導入したロジックについて説明する前に、まず既存のレコメンドシステムについて簡単に説明します。 既存のレコメンドシステムでは、ユーザとアイテムについてルールベースによる候補生成を行った後、機械学習モデルを用いてスコアを付与し、スコア順にユーザに推薦するアイテムを選択していました。 しかし、ルールベースによる候補生成はベースラインとしてはよいものの、性能改善には限界があり、ルールベースが複雑になればなるほど計算コストもかかるようになっていきます。 そこで、性能改善がしやす
本記事の内容 ドキュメント、書いてますか? こんにちは。データエンジニアの加藤です。社内データプロダクトである Knile1 と Crois2 の開発・運用や、社内に複数あるデータプロダクトの統合や連携などを見据えたリアーキテクチャを担当しています。 唐突ですが、チーム開発をしている皆様は、日常業務でドキュメントを書いていますか? 4 月の新卒社員の配属や組織再編・異動など、人や組織が大きく入れ替わる時期を終え、以下のような課題を再認識したチームも多いのではないでしょうか。 オンボーディングのドキュメントが整っていない 現状のアーキテクチャ図が整備されていない プロダクトのデバッグ対応が言語化されていない 自チームでもこういった問題は常に挙がっていましたが、ドキュメンテーション改善はなかなかされない状況が続いていました。 リモートワークが中心の業務では特に、暗黙知をきちんと言語化し、属人性
はじめに 2023年4月に入社した竹内博俊と池田柳之介と申します。 今年の3月にOpenAIはChatGPT APIを公開し、多くの注目を浴びました。 それから約1ヶ月後、当社リクルートでは、データ/エンジニアスペシャリストコースにて入社した新人を含む、データ推進室内で希望があった既存社員向けにこのAPIを利用した研修を実施しました。 研修から約3ヶ月が過ぎ、基礎的な部分の内容はだいぶ理解され、広まってきたように感じます。 このブログでは、我々新入社員が研修を通じて得た知見についてご紹介したいと思います。 なぜプロンプトデザイン研修を行うのか? この研修は「プロンプトデザイン研修」と名付けられており、当社のシニアサーチエンジニア、大杉直也が立案し講師を務めました。 研修立案の背景について、大杉はこう述べていました。 「研修対象は専門家だけではなく、非専門家のエンジニアも含むべきだと考えまし
はじめに こんにちは。人材領域でレコメンドシステムの機能開発をしている羽鳥です。 今日はみなさんが大好きな huggingface のライブラリを使って、自然言語処理を行う際に欠かせないトークナイザーを学習させる方法について書いていこうと思います。 huggingface 近年の自然言語処理においてはBERT1をベースにしたモデルは欠かせないものになってきました。 そしてその実装として市民権を得ているものの一つがhuggingfaceのライブラリでしょう。 huggingfaceのライブラリを使うと、いい感じに隠蔽されたインターフェイスを利用して多くのモデルを内部構造を気にすること無く使えるようになります。 Kaggleなどの分析プラットフォーム上で行われる自然言語を用いるコンペでもデファクトスタンダードとなっており、多くのユーザーに利用されています。 トークナイザー BERTに限らず自然
自己紹介 はじめまして、京都大学大学院エネルギー科学研究科に所属していますM1の下野祐太です。普段は、深層強化学習を利用したタンパク質の高効率サンプリング手法の開発というテーマで研究をしたり、別の長期インターンシップにおいて時系列データの解析などをしています。 今回、様々なプロダクトを展開し大規模なデータを保有しているリクルートに興味をもち、アルバイトに応募しました。そこで10/6〜11/15という約1か月の間、リクルートのアルバイト生として取り組んだ内容について紹介します。 背景 『Airインボイス』について 私は今回のアルバイトにおいて、 『Airインボイス』 というSaaSを開発するチームでお世話になりました。まずは『Airインボイス』というサービスについて説明します。『Airインボイス』は、請求書をスマホで撮影するとアプリが振込に必要な情報を自動でデータ化し、そのまま支払いまで行う
はじめに プロダクトオーナー兼機械学習エンジニアの本田志温です。 弊社高橋による前回の記事「NeurIPS 2022 参加報告 前編」 に引き続き、同会議の参加報告をします。本記事では、個人的に気になった論文(計53本)をいくつかのカテゴリで分類し、カテゴリごとに研究トレンドを大づかみにできるような形で書きます。特に重要だと感じた論文は詳しめに取り上げます。 会場の様子 また、本記事に関心をお持ちになった方は以下の過去記事もお楽しみいただけるのではないかと思います。ぜひ合わせてご覧ください。 AI開発の新たなパラダイム「基盤モデル」とは NeurIPS 2021 参加報告 前編 NeurIPS 2021 参加報告 後編 深層学習の原理 深層学習は様々なタスクで高い性能を発揮することが経験的に知られていますが、「なぜうまくいくのか」という原理についてわかっていることは多くありません。そのため
はじめに 機械学習エンジニアの本田志温です。最近担当した類似アイテム推薦の案件で、BigQueryを使って最大内積検索(MIPS; maximum inner-product search)1 を実装したので、その方法と高速化のテクニックを紹介します。 類似アイテム推薦は「多数のアイテム候補から、クエリとなるアイテムに最も類似したK件を抽出する」というタスクなので、MIPSないし近傍探索の枠組みで解くことが一般的です。 一定の規模を持つサービスでMIPSを実装しようとすると、アイテム数×特徴量次元の行列が何かと厄介です2。第一に、MIPSを素朴な行列積で実装すると、時間・空間計算量がアイテム数の2乗でかかってきます。典型的には空間計算量の方がボトルネックになりやすく、RAMの制約に収めるための工夫が必要になるでしょう。第二に、アイテム数が膨大な場合、特徴量マートから全アイテムの特徴量を転送
こんにちは、データテクノロジーユニット D3M 部の @beniyama こと山邉と申します。 D3M とは Data Driven Decision Making の略で、下記の組織概要にありますように『データマネジメントを通して経営資源としてのデータの価値を引き出し、意思決定の速度と精度を最大化する』ための組織になります。 具体的には、経営の意思決定やプロダクト戦略の策定など、様々なデータ利活用に対するデータ環境の要件を整理し、それを満たすための BI ダッシュボードやデータマートの構築など各種モニタリング基盤の整備などを行っています。 データ推進室組織概要(2022/09 現在) この度、データを活用した意思決定やプロダクト開発のスピードを加速させるべく、D3M 部において『アナリティクスエンジニア』の募集を新たに始めたので紹介させていただきます。 アナリティクスエンジニアとは De
自己紹介 はじめまして!株式会社リクルートにデータスペシャリストとして新卒入社しました橋本大輝と申します。 自分は入社当初はデータサイエンティストって結局具体的には何をする仕事なんだろう、エンジニアリングにも興味あるけどどこまで手を伸ばせるのかな、という不安感を持っていたのですが、新人研修を通して社内で触れることができる技術の幅と自由度を知りその不安が大きく解消されました。 ここではそんなデータスペシャリスト入社者に向けた新人研修の概要について、個人的に面白かった/ためになったところに重点を置きながら紹介していきたいと思います。 全体の流れ スケジュール データサイエンス×ソフトウェアエンジニアリング ソフトウェアエンジニアリング データサイエンス まとめ 最後に スケジュール 技術に関する研修は全てリモートで実施され、大まかに下図のようなスケジュールで行われました。 図1: 研修のスケジ
はじめに この記事では、当社内で開発した最適化フレームワークである「 Codable Model Optimizer 」について紹介します。 リクルートでは、機械学習のビジネス活用に長く取り組んできましたが、機械学習によって将来の予測が正確にできたとしても、その予測を元に良い選択を決定できなければならない問題に直面することが増えてきています。 例えば、商品に対する購入率が予測できたとしても、購入率の高い商品をたくさん表出させれば良いというわけではなく、実際には商品の在庫などを考慮してどのように表出させるのか意思決定する必要があります。 膨大な選択肢からより良い選択を見つけ出す問題を"最適化問題"とよび、様々な解法があります。解法としては、数理最適化(主に厳密な最適解を見つけるのに使われる)やメタヒューリスティクス(厳密最適解ではないが、大規模な問題において良い解を見つけるのに使われる)など
さて、視覚・言語を扱う基盤モデルとしては、2021年の CLIP がブレイクスルーでした。CLIPはテキストと画像を同じ特徴空間に写像する2つのエンコーダからなります。CLIPを使うと、次のようにして任意の画像分類問題を追加の学習なしで解くことができます。まず、各候補クラスを文章の形式(例:「犬の写真」)にした後、テキストエンコーダに入力します。次に、分類したい画像を画像エンコーダに入力します。最後に、画像から得られたベクトルと候補クラスたちから得られた複数のベクトルとのコサイン類似度を計算し、最も類似度が高いクラスを出力結果とします。 CLIPによるゼロショット画像分類の方法。OpenAI Blogより引用 CLIPは画像とテキストというモードの異なる情報を意味的な近さによって結びつけることを可能にしました。CLIPを教師のようにして使うことで、テキストから画像を生成するモデルを訓練する
特徴的な点として、ユーザーID・リクエスト時間・検索パラメータが一致するレコードが必ず偶数含まれ、半分が正例でもう半分が負例になるようにデータセットが作られていました。 このようなデータ設計になった背景は ML Contest 2021 - データセット準備 に詳しく説明されています。 サンプルノートブックの作成 今回のコンテストでは、EDA(探索的データ分析)のノートブック、ベースラインのノートブック、そして一部のカラムに含まれていた日本語を扱うための自然言語処理に関するノートブックを作成しました。 自然言語処理のノートブックの内容は私が以前個人的に執筆した ブログ記事 の内容に近いものですので、ここではEDAのノートブックとベースラインのノートブックの作成についてかいつまんで説明をします。 EDAのノートブックの用意 EDAのノートブックを作る段階では、私自身が一切データに関して知識が
はじめに 機械学習エンジニアの荒居秀尚です。2021年新卒入社で、機械学習モデリングや機械学習を用いたデータ施策におけるMLOps推進などに携わっています。 最近、担当案件で画像を扱っていたのもあり、画像を対象とした自己教師あり表現学習について調査していました。今回はその調査内容について紹介したいと思います。なお、この調査は文献調査と、実際に使ってみて案件への適用可能性を評価した実験とに分かれていますので、ブログの方も両方について触れようと思います。 分量が多いため、自己教師あり学習の基礎の部分の紹介、具体的な手法の紹介、そして応用例の紹介の三部立ての構成になっています。 前回の記事 では、自己教師あり学習が近年大きく発展している背景と、画像を対象とした自己教師あり学習の部品となる技術の紹介を行いました。それを踏まえ、今回は具体的な手法について紹介を行います。 おさらい 代表的手法の紹介に
こんにちは、データエンジニアの多田です。 私は現在、データ利活用基盤「Knile(発音は “ナイル")」の開発をしています。 今回は、私が Knile チームでスクラムマスターからプロダクトマネージャーへと役割が推移していく中で取り組んできた、チーム開発の課題とその対策について紹介いたします。 Knile とは Knile とは、以前 CET と呼ばれていたチームが開発するデータ利活用基盤です。 Knile のビジョンや設計思想については、最近行われた社外への登壇資料があるので、ご覧ください。 第14回MLOps勉強会 CloudNative Days Tokyo 2021 時間軸で取り組むチーム運営 この記事では以下の 4 つのサイクルに分けて取り組みを紹介します。 長期計画 半期 四半期 スプリント(2 週間) チーム運営のサイクル これは実際に業務の中で考える思考の順番でもあります。
『スタディサプリ ENGLISH』 Mobileチームのhirothingsです。 ENGLISHのiOSアプリでは、StoreKit Testingを活用してIn-App Purchase(以下、IAP)の安定運用を行っています。 この記事では、 StoreKit Testingの自動テスト導入 最新のSandbox事情 について解説します。 StoreKit Testingとは WWDC2020で発表されたApp Storeサーバに接続することなく、アプリ内課金をテストするためのローカル環境の総称です。 StoreKit Configファイルで設定したプロダクト情報を元に ローカル(シミュレータでも可)で課金処理のシミュレーション 自動ユニットテスト の実行ができます。 設定については割愛します。ドキュメントはこちらです StoreKit Testを使った課金テストの自動化 Store
こんにちは、データエンジニアの龍野です。 私は現在、全社横断のデータ基盤「Knile」の開発を行っています。 自分のチームは Four Keys の計測をはじめとした DevOps の実践をし、積極的に Site Reliability Engineering (SRE) の推進も行なっています。その中で今回は、 SRE の中核を占める SLO についてのより深い理解を深めるためにチーム内で実施した SLO Workshop と、Workshop の中で自分たちが学んだ SLO のエッセンスを紹介いたします。 この記事が目指すもの SRE 本 でも言われている通り( こちら のブログでも同様の言及があります)、SLOs are key to making data-driven decisions about reliability, they’re at the core of SRE
はじめに 機械学習エンジニアの荒居秀尚です。2021年に入社したばかりの新卒で、機械学習モデリングや機械学習を用いたデータ施策におけるMLOps推進などに携わっています。 最近、担当案件で画像を扱っていたのもあり、画像を対象とした自己教師あり表現学習について調査していました。今回はその調査内容について紹介したいと思います。なお、この調査は文献調査と、実際に使ってみて案件への適用可能性を評価した実験とに分かれていますので、ブログの方も両方について触れようと思います。分量が多いため、自己教師あり学習の基礎の部分の紹介、具体的な手法の紹介、そして応用例の紹介の三部立ての構成になっています。 今回はまず自己教師あり学習の基礎の部分の解説を行っていこうと思います。 画像を対象とした自己教師あり表現学習 背景 近年、Deep Learningの技術発展やコンピュータの性能向上、フレームワークの充実など
今回の記事はリクルートアドベントカレンダー2021の10日目の記事です。 こんにちは。スタディサプリ ENGLISH SREグループの木村です。 re:Invent2021で AWS OSS製のCluster Autoscaler KarpenterがProduction readyになったことをがアナウンスされました。 『スタディサプリENGLISH』では基盤にkubernetesを採用しており、今回導入ができないか検証をした記録です。 1)現在はauto scalingにはspotを利用しており別途記事になっているので興味があればこちらも参照ください Karpenterとは? 公式の説明では下記のように説明されています。 Karpenter automatically launches just the right compute resources to handle your cl
はじめに 機械学習エンジニアの本田志温です。2020年新卒入社で、機械学習を用いたデータ施策や社内のデータ活用プラットフォームの開発を担当しています。 本日はGPUによるモデルサービングに関するちょっとした注意点について話します。というのも最近、ある施策のためにGPUによるオンライン推論を行うAPIを開発したのですが、負荷テストをしたところ、処理性能が期待していたほど出ませんでした。いろいろと調査をした結果、原因は1つのリクエストの中でデータがGPUとCPUの間を行ったり来たりしていることだとわかりました。一度わかってしまえば当たり前のことですが、GPUによるモデルサービングをするときの注意点として書き残しておきたいと思います。 GPUによるサービング ディープなモデルの推論を高速化するためのテクニックには、精度を落とさないものでは計算グラフのコンパイル、精度を犠牲にするものでは蒸留や量子
意識のズレを感じたら As-Is / To-Be がおすすめ ― チームでコードレビューに対する意識調査をした話 wakamsha As-Is / To-Be とは? 現状と理想のギャップを的確に認識し、取り組むべき課題を抽出したうえで行動に移すためのビジネスフレームワークです。 As-Is: 現在の状態がどうであるかを表すもの。 To-Be: 理想の状態を表すもの。実現可能かどうかの制約を受けない純粋な理想(= あるべき姿)のことを指す。 主に計画や戦略の立案時に利用されるものですが、チームビルディングにおいても有効です。 理想のチームに到達するには解決すべき課題が多数存在するものですが、そういった課題が明確に把握されてることは稀です。解決するには対象である課題を明確に把握せねばなりません。 As-Is / To-Be モデルは、現状と理想とのギャップを洗い出すだけのツールです。しかし、
はじめまして ブログ編集長の阿部です。公共機関向けのインフラ・システム構築会社からリクルートグループに転職後、エンジニアとして当時立ち上げフェーズだったアドテクプロダクトを担当。プロダクトの拡大とともにアルゴリズムやデータ技術を活用するエンジニアリング組織のマネージャーを経て、現在はリクルートにおけるデータのスペシャリスト集団が集まる組織(以下、データ推進室)にて、データエンジニアリング・データマネジメント部門を担当しています。 リクルートの多種多様かつ膨大なデータを扱い、様々なサービスを日々進化させている私たちデータ専門集団が、日頃どのような技術を扱っているのか?どんな案件でデータを活用しているのか?そんなあれこれをみなさまに紹介するために「Recruit Data Blog」を立ち上げました。 このエントリーでは、今回ブログを立ち上げるに至った経緯をご紹介したいと思います。またこの背景
前置き スタディサプリENGLISH の web フロントエンドアプリは、実に多くの node モジュールライブラリ(以下、ライブラリ)に支えられています。 当初は開発メンバーが有志でそれらのライブラリを手動アップデートする運用で回していましたが、2021年3月頃より Renovate を本格導入することで依存ライブラリのアップロードを自動化する運びとなりました。 Renovate とは Whitesource Renovate: Automated Dependency Updates プロジェクトで依存しているライブラリ等のアップデートを自動化してくれるツール(≒ サービス)です。依存ライブラリのバージョニングを監視し、アップデート版が公開されるとそれに追従するためのプルリクエスト(以下、プルリク)を自動で作成してくれるという優れものです。かつては有償のサービスでしたが1)セルフホステ
美容クリニックは新規体制用の少人数体制で開発を行っており、その内の約 7 割がアプリ開発をしているエンジニアとなっています。 一方で、SRE は全体の約 1 割の人数しかいないという状況にあります。 この SRE の人数が少ないかどうかは扱っているシステムの規模や課題によって評価が変わるかと思いますが、美容クリニックが現在抱えている課題の量に対しては少ない人数だと感じています。 では、このように限られた人数の中でどのようにして SRE 活動を行ってきたのかを紹介していきます。 SRE チームの組閣 美容クリニックのリリース以前から SRE チームは存在していたのですが、リリース前後でその責務は変わってきます。 例えばリリース前はインフラの初期構築がメインの責務となってきますが、リリース後(エンハンス開発)にはインフラの保守運用がメインの責務となります。 さらに、メンバーの変動などにより当初
Kubernetesでコンテナに設定ファイルを追加したい場合にDockerイメージを作成せずに運用していくtips 大島 雅人 こんにちは、スタディサプリ ENGLISH SREグループの大島です。 本記事では、設定ファイルをConfigMapとして作成して起動時にvolumeとしてmountすることで、わざわざDockerイメージをビルドしてpushする運用をしなくてもよくなるというtipsを紹介します。 スタディサプリ ENGLISHでは、EKS+Argo CD+Kustomizeでのgitopsを採用しており、その場合の設定の仕方について説明していきます。 設定ファイルをinjectしたいモチベーションの背景 今回、説明する題材について簡単に説明します。 スタディサプリ ENGLISHでは、監視システムとして、Datadogを利用しています。 DatadogのagentはDocker
クリニック検索では、Ngramと形態素解析を併用することにより検索結果のヒット数を担保しつつ検索ノイズの増加による悪影響をスコアソートにより軽微なものに抑えています。 施術メニューピックアップのための全文検索では、検索ノイズが少ない形態素解析のみを利用しています。 美容クリニックでの検索における問題 形態素解析では、辞書に含まれている単語の集合に基づいて形態素が認識されます。 Sudachiの辞書において美容医療の専門用語が網羅されておらず、問題が発生します。 形態素解析で専門用語がカバーされていない問題 上記の表の通り、形態素解析では検索漏れが多いです。 例えば、「ダーマペン」は美容医療では人気な単語ですが、Sudachiに搭載されているデフォルトの辞書ではカバーされていないので、形態素として抽出されません。 形態素解析で期待通り認識・分割されない問題 「二重」が「フタエ」でなく「ニジュ
次のページ
このページを最初にブックマークしてみませんか?
『TECHBLOG 一覧 | Engineering at Recruit』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く