タグ

ブックマーク / techblog.gmo-ap.jp (7)

  • OpenAIのEmbeddings APIを使って文の意味上の類似度を計算

    はじめに おはようございます。こんにちは。こんばんは。 GMOアドマーケティングのY-Kです。 前にBERTを使って文をベクトルに変換してからなんやかんやする記事を書いてから約半年が経過したのですが、その間にChatGPTが大きく流行り、言語生成系AIに大きな風が吹きました。 というわけで今回は、OpenAIEmbeddings APIを利用し、記事タイトルの類似度を見てみようと思います。 準備 今回も例のごとくGoogle Colab上で行います。 https://colab.research.google.com/?hl=ja OpenAIEmbeddings APIを利用できる様にAPIキーは事前に取得しておいてください。 まずは必要なライブラリを使えるようにします。

    OpenAIのEmbeddings APIを使って文の意味上の類似度を計算
  • 自然言語処理モデル(BERT)で文の意味上の類似度を計算

    はじめに この記事は GMOアドマーケティング Advent Calendar 2022 21日目の記事です。 おはようございます。こんにちは。こんばんは。 GMOアドマーケティングのY-Kです。 今回は、 「最近話題の自然言語処理の機械学習のモデルを自分でも軽く触ってみたい! でも、難しいこと書かれててわからない(号泣)」 という層に向けて、 数ある自然言語処理モデルの中でも有名なBERTモデルを使って、文同士の意味の類似度を計算するという簡単なタスクを難しいことは極力置いといてやっていきます。 準備 今回もGoogle Colab上で行います。 https://colab.research.google.com/?hl=ja BERTの学習には時間と膨大な学習データ、豊富なインターネットリソースが必要なので、 Hugging Face上で公開されている学習済みBERTモデルを利用してい

    自然言語処理モデル(BERT)で文の意味上の類似度を計算
  • 正規表現検索の効率化

    GMO NIKKOのT.Iです。 今回は当社のTRUE データフィードで使用している正規表現検索の効率化についての記事となります。 前提(背景と目的) まずは宣伝(笑) 当社公式サイトでは上記となっていますが、簡単にいうと ・クライアントからデータを預かる ・預かったデータを広告媒体毎のフォーマットの変換する ・変換したデータを指定された場所に送信する ということをやっています。 その中のデータの変換時に禁止文言が入ったデータを行ごと除外するということをやっています。 大量のデータに禁止文言が入っているかをチェックする必要があるのですが、 初期想定では精々10万件に対して100~1000個の禁止文言をチェックする程度(1億回程度)で十分と判断していました。 ですが運用後に禁止文言が3万を超えてしまい、チェック処理が10万件×3万=30億回のチェックを行う場合があり、処理時間がかなり長くなっ

    正規表現検索の効率化
  • 2019年下半期 社内機械学習勉強会開催レポート

    今期の勉強会の内容紹介 前期までは機械学習の基礎的知識を会社の仲間と一緒に勉強していたので、今期は社内の番データを利用して機械学習の実装を行いました。 勉強会の課題の設計要件 1 勉強した技術が今後の会社業務に活かせるよう、今期の課題は会社の業務と関連性のある問題にします。 2 課題を明確に評価できるよう、課題の難易度は《基・中級・上級》の三つに分けます。 3 各自課題に取り組みます。 4 課題の基要件を達成するのに要する時間を3ヶ月(1週間あたり 2時間/人ベース)と設定します。 勉強会の流れ 勉強会の課題 今回の勉強会の実戦課題はクリック率の予測です。 CTRとは 当社はアドネットワークを開発・運営しています。CTRとは、アドネットワークで指定されたユーザーに対して、指定された広告がクリックされた回数(click)と表示された回数(imp)の比率の事を指します。 課題の要件 課題

    2019年下半期 社内機械学習勉強会開催レポート
  • Word2Vecの紹介

    先程作成したベクトル結果を2D座標に反映しましょう。 転換した結果、動物の距離を計算できます。例えば、犬との距離は犬と鳥の距離より近いことがわかります。 単語のベクトルを使って文書はベクトル空間の位置も計算できます。文書に含まれている単語のベクトルを平均値計算して結果を取れます。 文章をベクトルする方法 単語のベクトル結果を使って、文章もベクトルに転換できます。文書に含まれている単語のベクトルの平均値は、文章のベクトルになります。例えば“は金魚をべました”を、前の動物の単語をベクトルした結果でベクトルします。計算の流れは下記の図になります。 実際の業務に使用できる文書のベクトル計算は二種類あります。 1 文書に含まれている単語のベクトルを平均値計算します(単語がN個ある場合は下記の計算式になります)。 2 文書に含まれている単語のベクトルを平均値計算して各単語のTFIDF値を掛けます

    Word2Vecの紹介
  • GoogleのJava用Logging API「Flogger」を使ってみた

    /Library/Java/JavaVirtualMachines/jdk1.8.0_144.jdk/Contents/Home/bin/java -Dfile.encoding=UTF-8 -classpath /Library/Java/JavaVirtualMachines/jdk1.8.0_144.jdk/Contents/Home/jre/lib/charsets.jar:/Library/Java/JavaVirtualMachines/jdk1.8.0_144.jdk/Contents/Home/jre/lib/deploy.jar:/Library/Java/JavaVirtualMachines/jdk1.8.0_144.jdk/Contents/Home/jre/lib/ext/cldrdata.jar:/Library/Java/JavaVirtualMachines

    GoogleのJava用Logging API「Flogger」を使ってみた
  • GCEでJupyterを構築

    こんにちは、GMOアドマーケティングのS.Rです。 皆さん Googleのクラウドサービス、GCPを使ったことがありますか ?GCPGoogleさんから提供されている仮想マシン(VM)、BigData、機械学習などのクラウドサービスです。今回は一つの活用方法としてGCPの仮想マシンサービス、GCEでJupyterを構築する方法を皆さんに共有させていただきます。 1シナリオの説明: 普段のデータ分析に関する業務の中の重要な作業に、分析結果の可視化があります。Jupyter Notebookでこの問題が解決できます。Jupyter Notebookは下記のメリットがあります。 分析データから図や表を作成しやすい。 よく使う統計学のLibraryに連携しやすい。 よく使う機械学習のLibraryに連携しやすい。 Markupやコードが一緒に含まれます。 結果をpdfでダウンロードできます。 2

    GCEでJupyterを構築
  • 1