ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo!不動産のフロントエンド、バックエンドの開発を担当しているアンドン聖司と申します。 Yahoo!不動産では、店舗での対面接客と同等の物件提案が体験できるようなサービスを目指し、AIがアシスタントとなってユーザーの物件探しをお手伝いをしてくれるような機能を提供しています。深層学習やクラスタリングといった技術・手法を用いて、このAIアシスト機能を提供しています。 先日のYahoo! JAPAN Tech Conference 2022の内容をベースに、これらの技術の紹介と、登壇で語りきれなかった内容をご紹介します。 AIアシスト検索とは 従来の不動産サイトでは、ユーザーが条件を設定して絞り込みを行い、物件の検索を行います。(
TL;DR 興味があったので Launchable の @yoshiori さん @draftcode さんとカジュアル面談をした テストをはじめとしてソフトウェアエンジニアリングの生産性をデータドリブンで改善していくというのはめちゃ面白そう 自分は現段階では転職意思がないけど、機械学習エンジニアで興味ある人は言ってくれればおつなぎします! Ubie Discovery に転職して一年半が過ぎた。 日々楽しく働いているのだが、ご時世も相まって外の情報を得ることが少ないのはちょっと残念だなぁと思うことがある。 他の会社の人の話を聞くのは面白いしためになることも多いので、またそういう活動も少しずつやってみようかなと思い始めた。 そんな折に Launchable https://www.launchableinc.com/ で Machine Learning Engineer の positi
目次 はじめに 自己紹介 内容概要 基本設計 TCVのビジネスモデル 施策内容 システム構成 フェーズ1: とりあえずAutoMLを使ってみる フェーズ2: 目的変数を変える フェーズ3: BigQuery MLの導入による検証高速化 フェーズ4: 国別 フェーズ5: 回帰ではなく分類へ フェーズ6とその先へ おわりに はじめに 自己紹介 じげん開発Unitデータ分析基盤チームの伊崎です。 開発Unitは特定の事業部に所属しない全社横断組織です。 その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。 私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。 プライベートでKaggleに参加し、銅メダルを獲得した経験があります(最近は活動
ここ数ヶ月くらい、推薦システムにおけるNNの活用というテーマで論文をちょこちょこ読んでいました。 推薦システムにNNを適用・応用するという守備範囲も広いテーマではありますが、せっかく良い機会なので自分用にまとめてみたいと思います。 理解が曖昧なところもあり、マサカリが飛んできそうな気配がプンプンしますが、がんばって書いてみたいと思います。マサカリコワイ... 前提知識 協調フィルタリング Matrix Factorization Factorization Machine ニューラルネットワークの推薦システムへの応用の傾向 Feature EngineeringとしてのNN Wide & deep DeepFM DCN AutoInt DCN V2 系列データとして取り扱うNN prod2vec AttRec BERT4Rec Transformers4Rec 参考文献 読んだ論文をまとめ
門脇大輔 阪田隆司 保坂桂佑 平松雄司 著 Kaggleで勝つデータ分析の技術 2019-10-09 技術評論社 https://gihyo.jp/book/2019/978-4-297-10843-4 polarsの練習も兼ねて、データの前処理と特徴量エンジニアリングについて網羅的にメモを残します。 ダミーのデータセットを基に相関のあるデータを作成し、このデータを使って遊んでいきます。 TL;DR 欠損値は平均で埋めるだけにせず、欠損かどうかのカテゴリ変数へ掃き出して、よりよい補完値で埋める。または埋めなくても良い手法で分析する。 スケーリングは標準化だけではなく、順位や分布の裾野を見ながら最適なもの(モデルが扱いやすいもの)を選ぶ。 カテゴリ変数のエンコーディングは、one-hot化やLabel Encodingだけでなく、精度重視ならTarget Encodingなども試す。 列同士
概要 こんにちは、機械学習エンジニアの古賀です。 最近、人の動きを時系列で解析するためにグラフデータを扱ったのですが、データ量が大きくなると解析に時間がかかってしまい、効率が悪いと感じることがありました。 そんな中、cuGraph という高速にグラフ分析ができるライブラリが あることを知ったので、どれくらい高速なのか、有名なページランクの計算を題材に他のライブラリと速度を比較してみました。 目次は以下です。 概要 グラフとは Python によるグラフデータの分析 cuGraphとは ページランクとは ページランク値の定義 ページランクとグラフ 検証 実行環境 cuGraph ライブラリのインストール ライブラリのインポート データセット 検証内容・結果 1. NetworkX のグラフ、NetworkX のアルゴリズムを用いてページランクを計算 2. NetworkX のグラフ、cuGr
こんにちは、イノベーションセンターの加藤です。この記事では、Transformerベースの言語モデルで利用可能な高速化技術である投機的デコーディング(speculative decoding)を用いて、音声認識モデルのWhisperの高速化を検証したのでその結果を紹介します。 投機的デコーディングとは Whisperとは 実験 英語音声 (LibriSpeech) の結果 日本語音声 (Common Voice 17.0 日本語サブセット) の結果 まとめ 投機的デコーディングとは 大規模言語モデル(LLM)をはじめとするTransformerベースの言語モデルは、これまでの単語列から次に現れそうな単語を予測することを繰り返して文章生成を行なっています。 これに対し、元のモデルよりも軽量な言語モデルの出力を下書きとして利用することで、元のモデルの出力を完全に再現しながら文章生成を高速化する
Give Up GitHub: The Time Has Come! by Denver Gingerich and Bradley M. Kuhn on June 30, 2022 Those who forget history often inadvertently repeat it. Some of us recall that twenty-one years ago, the most popular code hosting site, a fully Free and Open Source (FOSS) site called SourceForge, proprietarized all their code — never to make it FOSS again. Major FOSS projects slowly left SourceForge since
Neural networks have been adapted to leverage the structure and properties of graphs. We explore the components needed for building a graph neural network - and motivate the design choices behind them. Hover over a node in the diagram below to see how it accumulates information from nodes around it through the layers of the network. Authors Affiliations Benjamin Sanchez-Lengeling Google Research E
AI・機械学習の無料電子書籍 「AI・機械学習の無料電子書籍」は、機械学習/ディープラーニング、統計学/データサイエンスといった、人工知能(AI)関連技術を習得するのに役立つ電子書籍(特に無料のもの)を厳選して紹介するコーナーです。 Excelで学ぶ、やさしいデータ分析(2024/04/24) @IT eBookシリーズ第117弾は、連載『やさしいデータ分析』の全編を電子書籍化しました。表計算ソフトで試しながら、基本的なデータ分析を学べます。前提知識は不要で、全ての社会人にお薦め。ここからデータ分析の第一歩を踏み出しましょう! Excelで学ぶ、やさしい確率分布(2025/08/04) @IT eBookシリーズ第143弾は、連載『やさしい確率分布』全編を収録。身近な疑問を題材に、Excelで楽しく体験しながら、確率分布の基本と活用法をやさしく学べます。前提知識は不要。ここからデータ分析を
研究開発部の山口 (@altescy) です.今回は最近開発したクックパッドマートの商品の「食材キーワード」を予測する機械学習モデルを紹介します. 商品の食材キーワード予測とは? クックパッドマートでは日々様々な食材が多くの販売者から出品されています.出品される商品の情報は販売者によって登録されるため,多様な表記が存在します.「じゃがいも」の商品名を例に挙げると,「ジャガイモ」「じゃが芋」といった表記の揺れや,「メークイン」「インカのめざめ」といった品種名が書かれているもの,「農家直送」や「お徳用」のようなキャッチコピーがついたもの,など様々です.一方で,商品の検索や推薦を行う際にはその商品がいったい何なのかを簡潔に表す情報が欲しくなります. そこで登場するのが「食材キーワード」です.商品名や商品説明とは別に,その商品がどんな食材なのかを表すキーワードを設定しておくことで,商品名の表記揺れ
Mistakes in machine learning practice are commonplace, and can result in a loss of confidence in the findings and products of machine learning. This guide outlines common mistakes that occur when using machine learning, and what can be done to avoid them. Whilst it should be accessible to anyone with a basic understanding of machine learning techniques, it focuses on issues that are of particular
概要 タイトルの通りなのだが、LightGBMをGPUで回すと結果の再現性が得られないことに気づいた。 CPUの場合は乱数seedを42などに固定すれば、同じ条件で何回回しても毎回同じ結果が得られる。 しかし、GPUの場合は乱数seedを固定しても回すたびに結果が変わってしまうのだ。 なぜ再現性がないのか? この問題はLightGBMの公式のissueでも議論されている。 まず、GPUを使う場合は並列で計算できる部分は並列処理をすることで効率化している。 さらに、並列化した結果を足し算するときに、順番によって微妙に値が変わってしまうということだ。 もちろん数学的には足し算の順番が変わっても結果が変わることなんてないんだけど、コンピュータでfloatなどの値を計算する以上、丸め誤差だったり複数の要因で結果が「ほんのわずかに」違うということが起きうる。 さらに、LightGBMをGPUで回した
One would hope that in ten years time there's no longer static content because everything is generated on the fly. 画像生成AIであるMidjourneyのファウンダーDavid Holzが、ゲームから静的なアセットは無くなり、AIがオンザフライで作った各種アセットをそのまま利用できるような、巨大AIチップを搭載したゲーム機が10年後にはできるのでは、という話をしている。このようなゲーム機ができれば、ゲーム内のテクスチャやキャラクタは自動的に無限に生成可能になる。 なかなか野心的なビジョンだが、それでもゲームそれ自身が無限に生成可能になる、とまではいかないのかなあ。キャラクタ、エフェクト、サウンド、レベルデザイン、ストーリーなどに加えて、ゲームルールそれ自身まで自動生成可能にな
この記事は確率的プログラミング言語 Advent Calendar 2023の12/8の記事です。 概要 『Pythonではじめる数理最適化』はいい本ですよね。親しみやすい実例、分かりやすい数式、きれいなPythonコードと三拍子そろっています (今年のアドカレで改訂版が近いうちに出ることを知りました)。 7章「商品推薦のための興味のスコアリング」では、「何日前に直近の閲覧があったか」と「閲覧回数」の二つの軸で興味のスコアを考えます。興味のスコアが単調減少であるという制約のもと、再閲覧の割合と推定値の二乗誤差を最小化するという凸二次計画問題として解いています。この記事ではStanで解くとこんな感じですというのを示します。メリットとしてベイズ信頼区間も推定されます。 データ 公式のリポジトリの7章のipynbファイルを途中まで実行して得られるデータフレームrf_dfを使用します。他の人の扱い
こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 普段はメルカリのホーム画面などに表示されるレコメンドパーツの改善を担当しています。今回はメルカリの莫大なユーザーログデータと、出品された商品に付与されているメタデータ(詳細後述)を活用したレコメンドロジック改善事例をご紹介します。 商品メタデータについて メルカリではユーザーの商品検索体験を向上させるため、出品された商品に対して様々なメタデータを付与しています。ファッションアイテムだと色や生地感、家電だと型番といった、主として商品の属性をあらわす様々なデータをメタデータと呼称しています。 今回、私は本やマンガに紐づいているメタデータ (以下、タイトルデータと記載) に着目しました。 メルカリアプリ内では、本やマンガに商品が属するシリーズを表現するメタデータが付与されています。例えば「キング
Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 日本語 English 1. はじめに いつも左中間を狙うようなプチニッチなふざけた記事ばかりを量産しています。 この記事の手順を実施すると、 最終的に PyTorch製 高精度Semantic Segmentation の U^2-Net を TensorFlow Lite へ変換することができます。 下図のような感じです。 TensorFlow めちゃくちゃ扱いにくいです。 日々公開される最新のとても面白いモデルは軒並みPyTorch実装ですし、なんでTensorFlowで実装してくれないんだ!! と、常日頃思っています。 論文のベ
はじめに はじめまして。 goto yutaです。 (twitter: @goto_yuta_) 最近競馬AIを始め、ちょっとずつ上手く行き始めているので備忘録も兼ねてzennを始めました。 競馬ではオッズ(金)が絡み、知見が共有されにくい風潮があります。 しかし、個人的にはもう少し知見が貯まって欲しいと思ってるので、自分の学習も兼ねて知見を共有して行こうと思います。 最近では競馬AIの基盤も整ってきており参入障壁は無くなってきていると感じます。 理由としては以下のようなことが挙げられます。 面倒なデータの整備については、scrapingソースコードが公開されている YouTubeとかでも知見の共有が行われているので、手を動かすのがしんどくても良い 本記事で触れること 今回は競馬AIを作るにあたって私が読んで有益と感じた記事をほぼ一言でまとめていこうと思います。 以下のような記事が多めです
リブセンスで機械学習基盤の開発・運用をしている赤坂(yyyyskkk)です。 我々のチームでは今年の7月ごろにGKE Standard(以下Standardクラスタ)上に構築していた機械学習基盤をGKE Autopilot(以下Autopilotクラスタ)に移行しました。GKE Autopilotとはノードやポッドを自動で管理してくれるクラスタです(詳しくはGoogleのブログをご覧ください)。この記事ではなぜAutopilotクラスタに移行したのか、移行する上でどんな作業が必要だったかという話を書きます。 なぜAutopilotクラスタに移行したのか 高額なノードが複数立ち上がる問題 system podが原因? StandardクラスタとAutopilotクラスタの違い 検証 移行に必要だった作業 Argo WorkflowsのExecutorを変更した メモリ不足が発生したためres
こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。 背景・概要 手法 要因 実験 NLIタスクによる実験 クラスタリングによる実験 終わりに 背景・概要 自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。 近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル
OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。 設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は昨日公開されたFLAN-20B with UL2を使ってChatGPT APIのように会話をしてみたいと思います。 概要 Google BrainのYi Tayさんらが開発した新しく公開された言語モデルのFLAN-20B with UL2を使ってChatbotみたいな対話をしてみるテストです。 翻訳を組み合わせて実現します。デカ言語モデルが手元で動いてめちゃくちゃ嬉しさがあります。 Google Colab Colab ProのプレミアムGPUでないと動きません 使い方 ランタイム > ランタイムのタイプを変更からGPU / プレミアムとする A100 40GB VRAMであることを確認しておきましょう すべてのセルを実行 注意 ローカルで動かす場合 VRAMを33GB程度使用します 今後int
はじめに 2年ほど前,私はGANというものに出会って感銘を受け,Qiitaで『SushiGAN 〜人工知能は寿司を握れるか?〜』というちょっと釣りっぽいタイトルの記事を書きました.中身はChainerのexampleにあったDCGANの実装を寿司の画像で学習させてみるというもので,下のようなモード崩壊気味の寿司画像を作って満足していました. あれから2年あまりが経ち,画像生成の技術は驚くべき発展を遂げました1.StyleGAN,そしてStyleGAN2が登場し,すぐには見分けがつかないほどの品質で1024x1024の人の顔の画像が生成できるようになりました [1].そのインパクトは凄まじく,"This Person Does Not Exist"を皮切りに,GANで生成したリアルな偽物のサンプルをランダムに表示するWebサイトがちょっとした流行になりました.いくつか例を挙げると,次のような
最近は勉強会での登壇や書籍の出版などアウトプットが色々重なりました (昨年は一度もプロポーザルを書かず登壇依頼もなかったので随分増えました)。 そのたびにツイートもしてきましたが、ほとんど流れてしまって少しもったいない気がしたのでブログにまとめておこうと思います。 登壇資料 PyData.Tokyo Meetup #23「サイバーエージェントにおけるMLOpsに関する取り組み」 Optuna Meetup #1「CMA-ESサンプラーによるハイパーパラメータ最適化」 World Plone Day「Web パネルディスカッション(Python Webと非同期)」 CA BASE NEXT「サイバーエージェントにおけるMLOpsに関する取り組み」 書籍 実践Django Pythonによる本格Webアプリケーション開発(翔泳社:7月19日発売) エキスパートPythonプログラミング改訂3版
こんにちは。データサイエンス部の石川です。 弊社では広告配信の最適化のために CTR・CVR*1 を推定する機械学習モデルを開発していて、定期的な学習とモデルの更新を行っています。 このようなシステムにおいて、学習済みモデルが推論システムで問題なく動作することを保証するために、デプロイされるモデルの挙動を検証する仕組みが必要です。 特に、学習時と推論時で同一の広告リクエストに対して同じ推論値を出力するかを確認する仕組みを「差分検知」と呼んでいます。 この記事では、弊社の広告システムにおける機械学習モデルの差分検知について紹介します。 背景 課題 解決策 PyO3 の実装 まとめ 背景 弊社の CTR・CVR を推定する機械学習システムでは、ワークフローエンジンが定期的にモデルの学習を実行し、その後学習済みモデルを S3 にアップロードします。 広告スコアリングサーバは S3 上のモデル変更
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く