[B! *algorithm][NLP][*service] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとNLPとserviceに関するsh19910711のブックマーク (9)

BERTを用いて膨大なコンテンツにメタデータを自動付与する〜 Yahoo!ショッピングの商品属性推定
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所の鍜治です。みなさんはコンテンツにメタデータを付与したいとき、どのようにしていますか？　もちろん手作業で付与することもできますが、コンテンツ量が膨大なときには、自動的にメタデータを付与できる仕組みがあると便利だと思いませんか？私がリーダーを務めている研究開発チームでは、Yahoo!ショッピングの商品に属性というメタデータを自動付与するため、BERTを用いた商品属性推定モデルを開発しています。本記事では、そもそも商品の属性とはどういうものなのか、どのようにBERTを使っているのか、既存モデルと精度はどのくらい違うのか、などについてお話したいと思いますので、よろしくお願いします。 Yaho
sh19910711 2025/09/16
2022 / "BERTの元論文では、マスク言語モデルに加えて次文予測（Next Sentence Prediction）モデルを学習することも提案 ~ ここでは採用していません / 商品タイトルについては、そもそも次文を定義することが難しい"

*algorithm

NLP

label

*service

事例
リンク
事前学習済言語モデルの動向 (2) / Survey of Pretrained Language Models
@東工大・産総研勉強会
sh19910711 2024/02/29
"2019年10月25日、Googleは検索エンジンのアルゴリズムをBERTベースに + 12月10日には日本語含む / UniLM: マスクの入れ方で単方向・双方向・Seq2Seqを1モデルで制御 / ULMFit: 忘却を防ぐため徐々にunfreezing" / 2020

*algorithm

NLP

*service

Google
リンク
多様なコンテンツをとどける、レコメンドベースのnoteのホームタイムラインをつくる｜kiha
本記事では、note社内において、レコメンドとパーソナライズをベースにした新しいホームタイムラインのMVP（Minimal Viable Productの意、開発コードネームはHorizon）を開発した経緯や思想とその推移を、エンジニアの観点から書いている。PdM的な観点から書いた以下の記事も参照いただけると幸いである。想定する読者としては、以下のような読者を想定している。情報推薦や検索、データマイニング、機械学習の活用に興味があるエンジニアちょっと賢い機能をコアとしたプロダクトを開発したいと思っているプロダクト志向のエンジニアパーソナライズや情報推薦をコアとしたプロダクトをマネジメントしている(しようとしている)プロダクトマネージャー新しいホームタイムラインの実現のために、以下のような仕組みを実現した。ユーザ閲覧履歴記事からのキーワード抽出キーワード抽出 -> 記事推薦のア
sh19910711 2022/10/03
"よいコンテンツは人によって異なる / 小説やエッセイといった内容が多岐にわたる記事を多く読んでいるユーザの興味のあるキーワードは抽出しにくい + 汎用的なキーワードが抽出 + 意味をなす結果が得られなかった"

*algorithm

NLP

*service

ブログ
リンク
Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。深夜24~26時頃に記事一覧を確認してみて欲しい。スパム記事がわんさか出てくるはず。登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめにこれはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。自分
sh19910711 2022/08/24
2019 / "Qiitaの正規ユーザーの投稿が多いのは夕方17時ごろと深夜23~24時だった。日報/日記的に投稿している人が多いのだろうか / スパム記事: ユーザ名の長さも重要(多分アルファベットの羅列は長くなりがち"

*algorithm

NLP

*service

Qiita
リンク
Qiitaベクトル v0.1: SCDVによるQiita記事のベクトル化 - Qiita
from sklearn.mixture import GaussianMixture # hyper parameters num_clusters = 30 # cluster num of GMM clustering sparse_percentage = 0.01 # train scdv gmm = GaussianMixture(n_components=num_clusters, covariance_type="tied", init_params='kmeans', max_iter=50) scdv_model = SCDV(w2v_model=w2v_model, sc_model=gmm, sparse_percentage = sparse_percentage ) scdv_model.precompute_word_topic_vector(sentence
sh19910711 2022/08/19
2019 / "SCDV: EMNLP2017で発表 / やってみると、微妙なところが気になったのでv0.1にした。試したいことが色々でてきた / 今後やってみたいこと: 埋め込まれているコードの部分も使えたらQiitaっぽくて良い"

*algorithm

NLP

*service

Qiita
リンク
「Twitter上のデマらしき話題を自動検知し、同時に判断材料を提供するシステム」の構想案
sh19910711 2022/08/10
"ユーザが情報を信じている場合は「ひどい」「感動した」などの感情的表現が含まれることが多い / デマであると指摘しているツイートは「デマ」「ガセ」など直接的な言葉を使っているツイートが多い"

*algorithm

NLP

*service

ソーシャルメディア
リンク
「コロナ」に関するツイートをpythonで収集して、「コロナ」の影響で話題になった単語を自動検出する - Qiita
Twitterデータのpythonでの収集方法と、時系列のテキストデータに対するバースト検出方法の説明です。技術的には、以下の過去記事と同様です。過去記事：「クッパ姫」に関するツイートをpythonで収集して、バースト検出してみた https://qiita.com/pocket_kyoto/it ems/de4b512b8212e53bbba3 この時に採用した方法の汎用性を確認するために、2020年3月10日時点で話題の「コロナ」をキーワードとして、Twitterデータの収集と、「コロナ」と共起する語のバースト検出を実践してみました。「コロナ」に関するツイートを収集する収集方法は、基本的に過去記事とほぼ同じです。まずは、ライブラリの読み込みなど、ツイート収集の準備を行います。 # Twitterデータ収集用のログインキーの情報 KEYS = { # 自分のアカウントで入手した
sh19910711 2021/12/22
"バースト検出という手法に関しては、書籍では、「ウェブデータの機械学習 (機械学習プロフェッショナルシリーズ)」に詳しくまとめられているようです / MACD: He and Parker が2010年に発表 + シンプル、かつ計算量が少ない"

*algorithm

NLP

*service

ソーシャルメディア
リンク
新型コロナとツイート感情分析～3連休で本当に皆油断していたかどうか調べてみた｜tori
新型コロナ関係のツイートをひたすら集め続けて2か月以上経過して，データもだいぶ充実してきました．共同研究者にも配布を始めたのですが，どうもデータ収集サーバのTimeZoneが狂っていたらしく，時間については信用できないデータになっていたので，一生懸命再構築中．とほほ．さて，基本的にNLP(=自然言語処理)は苦手なんですが，新型コロナに関する感情がどのように変化しているのかを調べてみました．結論から言えば，先週末の連休で皆油断しているといわれていたけど，やっぱり油断してた．今はちょっと緊張感を取り戻しつつある気がする．使ったデータは「新型肺炎 OR 武漢 OR コロナ(ウイルス OR ウィルス) OR コロナ OR ウイルス OR ウィルス OR COVIT19 OR COVIT-19」で検索したツイート1月16日～3月26日までのリツイート以外の18,471,700件．リツイートじ
sh19910711 2020/03/29
*algorithm

NLP

*data

*service

ソーシャルメディア
リンク
データでわかる #うたの日【機械学習編】｜さちこ
うたの日ではどんな短歌が評価されやすいのか知りたくないですか。だってハート欲しいじゃん。この記事ではdoc2vecと機械学習を用いて、短歌が「自由詠」の部屋に出詠された場合のハート数の予測を試みます。この記事でやることうたの日はインターネット上で歌会を開催しているサイトです。普段は「題」に沿った短歌を募集していますが、月一で「自由詠」の部屋が出現します。今回はうたの日の自由詠に出詠された短歌（1001日目から1393日目までの「自由詠」に出詠された2269首）について、機械学習で〈詠まれているものごとの傾向〉を学習し、それにもとづいて〈私の自作短歌（445首）がもし自由詠に出されたらいくつハートを獲得できるか〉を予測してみます。ただ、結論を先に言ってしまうと、今回のこの試みはあまり上手くいっていません。機械学習（教師あり学習）にできるのは、大まかには分類（＝カテゴリの予想）と回帰（
sh19910711 2018/05/10
"うたの日はインターネット上で歌会を開催しているサイト"

*service

*algorithm

機械学習

NLP
リンク
1