タグ

*serviceと*algorithmに関するsh19910711のブックマーク (20)

  • QiitaのGNNタグ付けレコメンドにテキスト情報を追加してみる - Qiita

    前身となった記事 2つを掛け合わせたような記事です. タグ同士のリンク情報に加えて,記事内容をベクトル化したものを加えることで,さらに良い推論結果が出せるのではないかということで実践してみることにしました.Heterogeneous Graphをカスタムデータに使ってみたいという方におすすめです. 以下の流れで実装を進めていきます. データセットの用意 テキストデータをベクトル化 グラフデータを用意する 学習 評価 実装のnotebookはgithubに挙げてますので,記載していない細かい部分が気になる方はそちらを参照してください.(あまり精査してませんが) https://github.com/taguch1s/qiita-tag-recommend/tree/main いろいろ細かい部分はスルーしてとりあえず実装までこぎつけた感じなので,気になる部分がありましたらご教授いただけますと幸

    QiitaのGNNタグ付けレコメンドにテキスト情報を追加してみる - Qiita
    sh19910711
    sh19910711 2024/05/01
    "タグ同士のリンク情報に加えて,記事内容をベクトル化したものを加える / 内容とタイトルのテキストデータを結合してdoc2vecで学習 / タグのテキストデータをグラフで利用できる形に変換 + pytorch-geometricのtutorial を参考"
  • Comet.mlを使ってみた - Re:ゼロから始めるML生活

    前に、Weights & Biasesを使って実験管理する方法をやってみました。 www.nogawanogawa.com 最近のkaggle強い方々のtweetを見る限り、mlflowで実験管理をするのが徐々に普及している感じがしますが、その流れもあってかwandbなどの実験管理サービスを使用する事例も見られるようになっている印象です。 Comet.mlもwandbと同様、実験管理ができるサービスとなっています。 というわけで、今回はComet.mlを使用してみたので、そのメモです。 Comet.ml is 何? でも、お高いんでしょう? 使ってみる Pytorch 複数実験の比較表示 個別の実験の詳細表示 良いと感じたところ 惜しいと感じたところ 想定される使い方 感想 Comet.ml is 何? www.comet.ml Comet.mlはwandbなどと同様、機械学習の実験管理を

    Comet.mlを使ってみた - Re:ゼロから始めるML生活
    sh19910711
    sh19910711 2024/03/09
    "mlflowで実験管理をするのが徐々に普及 / その流れもあってかwandbなどの実験管理サービスを使用する事例も見られる / Comet ML: Weights & Biasesの競合 / ネットワークグラフやノートブック本体についても記録することが" 2020
  • 事前学習済言語モデルの動向 (2) / Survey of Pretrained Language Models

    @東工大・産総研 勉強会

    事前学習済言語モデルの動向 (2) / Survey of Pretrained Language Models
    sh19910711
    sh19910711 2024/02/29
    "2019年10月25日、Googleは検索エンジンのアルゴリズムをBERTベースに + 12月10日には日本語含む / UniLM: マスクの入れ方で単方向・双方向・Seq2Seqを1モデルで制御 / ULMFit: 忘却を防ぐため徐々にunfreezing" / 2020
  • サービス提供者はユーザーの多様なコンテンツ消費を促すべきか? - kuri8iveにいきてこ。

    はじめに こんにちは、@kuri8iveです。 記事では個人的に好きな Algorithmic Effects on the Diversity of Consumption on Spotify [Anderson et al. 2020] という論文の紹介を中心に「サービス提供者はユーザーの多様なコンテンツ消費を促すべきか?」について考えたいと思います。 (※画像はいずれも紹介する論文内のものになります。) この記事は情報検索・検索技術 Advent Calendar 2022の13日目の記事になります。 adventar.org はじめに 背景とデータ 多様な消費とユーザー体験 対象となるデータと曲埋め込み GSスコア 様々な観点から見た消費多様性とユーザー体験の関係 消費多様性と活動レベル ユーザー/アルゴリズム駆動の消費多様性 消費多様性と人口統計学的属性 消費多様性と顧客維持

    サービス提供者はユーザーの多様なコンテンツ消費を促すべきか? - kuri8iveにいきてこ。
    sh19910711
    sh19910711 2022/12/17
    "GSスコア: 消費回数とアイテム間の類似性の両方を考慮 / 一般には消費の多様性はジニ係数やエントロピーなどのアイテムの消費回数を ~ / 年齢が上がるにつれてユーザー駆動→アルゴリズム駆動 / Anderson et al. 2020"
  • Udacity の深層強化学習ナノ学位を修了しました - Qiita

    概要 Udacity という(アメリカの)オンライン講座に、この夏 Deep Reinforcement Learning Nanodegree (深層強化学習ナノ学位) というものが開講しました。999 ドルと非常に高額なのですが、なんと自腹で払って受講しました(よく決断したものです。家族の皆さん、ごめんなさい..) 世に同様のコースや資料はいくつかあるのですが、特に現業務では必要とされていないということもあり、どれもあまり長続きせず、金を無駄にもできないというプレッシャーと、しきりに運営から来る締め切り通知で尻を叩いてくれるという監視役に期待して、ポチってしまいました。8月末のことです。 当然、論文を容易に理解し、立ちどころに実装できてしまう腕に自信のある方には不要です。私も色々書籍を見たり、別の(無料の)オンラインでの講義資料を見たりしたのですが、途中で挫折したことは数知れずで、私に

    Udacity の深層強化学習ナノ学位を修了しました - Qiita
    sh19910711
    sh19910711 2022/11/02
    2018 / "999ドル + 受講者には$100のAWS利用権 / レビュアー付きの実装課題が出てくる / 冒頭1ヶ月で「ちゃんと最初の計画を立てろよ」「今週はここまでちゃんと進んだか?」という確認メールがうざいほど飛んできて"
  • 多様なコンテンツをとどける、レコメンドベースのnoteのホームタイムラインをつくる|kiha

    記事では、note社内において、レコメンドとパーソナライズをベースにした新しいホームタイムラインのMVP(Minimal Viable Productの意、開発コードネームはHorizon)を開発した経緯や思想とその推移を、エンジニアの観点から書いている。PdM的な観点から書いた以下の記事も参照いただけると幸いである。 想定する読者としては、以下のような読者を想定している。 情報推薦や検索、データマイニング、機械学習の活用に興味があるエンジニア ちょっと賢い機能をコアとしたプロダクトを開発したいと思っているプロダクト志向のエンジニア パーソナライズや情報推薦をコアとしたプロダクトをマネジメントしている(しようとしている)プロダクトマネージャー 新しいホームタイムラインの実現のために、以下のような仕組みを実現した。 ユーザ閲覧履歴記事からのキーワード抽出 キーワード抽出 -> 記事推薦のア

    多様なコンテンツをとどける、レコメンドベースのnoteのホームタイムラインをつくる|kiha
    sh19910711
    sh19910711 2022/10/03
    "よいコンテンツは人によって異なる / 小説やエッセイといった内容が多岐にわたる記事を多く読んでいるユーザの興味のあるキーワードは抽出しにくい + 汎用的なキーワードが抽出 + 意味をなす結果が得られなかった"
  • Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita

    知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分

    Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
    sh19910711
    sh19910711 2022/08/24
    2019 / "Qiitaの正規ユーザーの投稿が多いのは夕方17時ごろと深夜23~24時だった。日報/日記的に投稿している人が多いのだろうか / スパム記事: ユーザ名の長さも重要(多分アルファベットの羅列は長くなりがち"
  • Qiitaベクトル v0.1: SCDVによるQiita記事のベクトル化 - Qiita

    from sklearn.mixture import GaussianMixture # hyper parameters num_clusters = 30 # cluster num of GMM clustering sparse_percentage = 0.01 # train scdv gmm = GaussianMixture(n_components=num_clusters, covariance_type="tied", init_params='kmeans', max_iter=50) scdv_model = SCDV(w2v_model=w2v_model, sc_model=gmm, sparse_percentage = sparse_percentage ) scdv_model.precompute_word_topic_vector(sentence

    Qiitaベクトル v0.1: SCDVによるQiita記事のベクトル化 - Qiita
    sh19910711
    sh19910711 2022/08/19
    2019 / "SCDV: EMNLP2017で発表 / やってみると、微妙なところが気になったのでv0.1にした。試したいことが色々でてきた / 今後やってみたいこと: 埋め込まれているコードの部分も使えたらQiitaっぽくて良い"
  • 「Twitter上のデマらしき話題を自動検知し、同時に判断材料を提供するシステム」の構想案

    sh19910711
    sh19910711 2022/08/10
    "ユーザが情報を信じている場合は「ひどい」「感動した」などの感情的表現が含まれることが多い / デマであると指摘しているツイートは「デマ」「ガセ」など直接的な言葉を使っているツイートが多い"
  • 自分の研究を自腹で広告した体験談 - ジョイジョイジョイ

    皆さんは自分の研究成果をどうやって広めていますか? ひとつの研究は実働時間だけでも最低数ヶ月、全出版プロセスを考えると一年単位で取り組むこととなります。そうして手塩にかけて育てた研究が誰にも認知されない、というのはなんとも悲しいことです。 僕が所属している機械学習分野は人工知能ブームにより、日々洪水のように論文が発表され、その中で存在感を発揮するのは難しくなっています。 一昔前であれば、名のある国際会議やジャーナルに採択されればそれなりに存在感を発揮できたようですが、今では一つの会議に数千の論文が採択されるため、採択された後にも競争に勝たなければ目立てないという事態になっています。 論文のクオリティを上げて名のある国際会議に採択されるだけでは不十分、となれば一体どうすれば良いでしょう。 有望な策は無く、天に祈って運に任せる、というのが最も一般的なパターンではないでしょうか。広く読まれる論

    自分の研究を自腹で広告した体験談 - ジョイジョイジョイ
    sh19910711
    sh19910711 2022/07/04
    "機械学習分野は人工知能ブームにより、日々洪水のように論文が発表 / 今では一つの会議に数千本の論文が採択 / キーワードとしては "Machine Learning" と "Data Mining" を指定 + 推定オーディエンス数は約 800 万と 200 万"
  • AbemaTVにおける推薦システム

    SENDAI X-TECH Innovation Project 2018-2019 「AbemaTVにおける推薦システム」の発表スライドです。Read less

    AbemaTVにおける推薦システム
    sh19910711
    sh19910711 2022/04/24
    2018 / "AbemaTVにおける推薦システム: 粗いアルゴリズムによる候補選択 + 候補のリランキング / 推薦対象の番組をユーザーが一定時間以上視聴するかの二値分類"
  • 「コロナ」に関するツイートをpythonで収集して、「コロナ」の影響で話題になった単語を自動検出する - Qiita

    Twitterデータのpythonでの収集方法と、時系列のテキストデータに対するバースト検出方法の説明です。 技術的には、以下の過去記事と同様です。 過去記事: 「クッパ姫」に関するツイートをpythonで収集して、バースト検出してみた https://qiita.com/pocket_kyoto/items/de4b512b8212e53bbba3 この時に採用した方法の汎用性を確認するために、2020年3月10日時点で話題の「コロナ」をキーワードとして、Twitterデータの収集と、「コロナ」と共起する語のバースト検出を実践してみました。 「コロナ」に関するツイートを収集する 収集方法は、基的に過去記事とほぼ同じです。 まずは、ライブラリの読み込みなど、ツイート収集の準備を行います。 # Twitterデータ収集用のログインキーの情報 KEYS = { # 自分のアカウントで入手した

    「コロナ」に関するツイートをpythonで収集して、「コロナ」の影響で話題になった単語を自動検出する - Qiita
    sh19910711
    sh19910711 2021/12/22
    "バースト検出という手法に関しては、書籍では、「ウェブデータの機械学習 (機械学習プロフェッショナルシリーズ)」に詳しくまとめられているようです / MACD: He and Parker が2010年に発表 + シンプル、かつ計算量が少ない"
  • グラフニューラルネットワークでQiitaのタグづけをレコメンドする - Qiita

    記事はNTTドコモR&Dアドベントカレンダー2021の8日目の記事です. こんにちは、NTTドコモの橋(@dcm_hashimotom)です. 業務ではレコメンド関連の技術開発・施策検討を行っており,主にPythonやBigQuery, Apache Sparkを触ってます. SNSなどで投稿したコンテンツの検索性を上げるためには,そのコンテンツへのタグ(またはハッシュタグ)の付与が重要です.Qiitaではタグは5つまで付与することができ,タグを指定した絞り込み検索や,マイページでのプロフィールに使われております.しかし,タグの付与はユーザ手動なものが多く(要出典),検索性が高いものを選択するためには,ドメイン知識が必要です.なので,タグを付ける際に「このタグがついた投稿では他にこんなタグもついてます」的なレコメンドがあれば有用そうです.また,レコメンドということですが,近年レコメンド

    グラフニューラルネットワークでQiitaのタグづけをレコメンドする - Qiita
    sh19910711
    sh19910711 2021/12/12
    "GNNを用いてQiitaタグをembeddingしたTech2Vecを作成 / DGLのチュートリアルに沿った形式で実装 / 「GNN」を入力してみましたが + 前処理で削られてしまって > もっとGNNの記事が必要"
  • niconicoにおけるコンテンツレコメンドの取り組み

    sh19910711
    sh19910711 2021/07/04
    "タグレコメンダー: 親子関係をタグの共起関係から推測 / シンプソン係数 / 閾値は経験的に 0.4"
  • 【Coursera】 実践的な機械学習の知識が得られる「How to Win a Data Science Competition」「Bayesian Methods for Machine Learning」がオススメ - フリーランチ食べたい

    業務で機械学習する方にオススメなCourseraの2コース オンライン学習サービスのCourseraで下の2つのコースを去年末から受講しており、最終課題に少し時間がかかってしまったのですが、無事どちらも修了することができました。 How to Win a Data Science Competition: Learn from Top Kagglers Bayesian Methods for Machine Learning せっかく受けたので、どんなコースだったか、何がオススメかを簡単に書こうと思います。 受けたコース1: How to Win a Data Science Competition: Learn from Top Kagglers Course Link Kagglerから実践的な機械学習のテクニックを学ぶコースです。rebuild.fmでhigeponさんが受講した話

    【Coursera】 実践的な機械学習の知識が得られる「How to Win a Data Science Competition」「Bayesian Methods for Machine Learning」がオススメ - フリーランチ食べたい
  • YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜

    はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。 こんにちは、Data Analystの @pacocat です! 私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、様々な定量・定性データを活用してどのように事業成長に貢献できるか考える日々です。 前職ではAI PdMとして、ゲームや強化学習領域でのAI活用を推進していました(興味ある方はGDC2019での発表や各種スライド slideshare / speakerdeck をご覧ください)。直近はがっつりAIに関わっているわけではありませんが、趣味で推薦×強化学習分野のサーベイをしていたら面白い話題がたくさんあったので、それらの中からYouTub

    YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜
  • How Hacker News ranking algorithm works

    In this post I’ll try to explain how the Hacker News ranking algorithm works and how you can reuse it in your own applications. It’s a very simple ranking algorithm and works surprising well when you want to highlight hot or new stuff. Digging into news.arc codeHacker News is implemented in Arc, a Lisp dialect coded by Paul Graham. Hacker News is open source and the code can be found at arclanguag

    How Hacker News ranking algorithm works
    sh19910711
    sh19910711 2020/10/18
    HNのスコアについて
  • Using GitHub Actions for MLOps & Data Science

    AI & MLLearn about artificial intelligence and machine learning across the GitHub ecosystem and the wider industry. Generative AILearn how to build with generative AI. GitHub CopilotChange how you work with GitHub Copilot. LLMsEverything developers need to know about LLMs. Machine learningMachine learning tips, tricks, and best practices. How AI code generation worksExplore the capabilities and be

    Using GitHub Actions for MLOps & Data Science
  • 新型コロナとツイート感情分析~3連休で本当に皆油断していたかどうか調べてみた|tori

    新型コロナ関係のツイートをひたすら集め続けて2か月以上経過して,データもだいぶ充実してきました.共同研究者にも配布を始めたのですが,どうもデータ収集サーバのTimeZoneが狂っていたらしく,時間については信用できないデータになっていたので,一生懸命再構築中.とほほ. さて,基的にNLP(=自然言語処理)は苦手なんですが,新型コロナに関する感情がどのように変化しているのかを調べてみました. 結論から言えば, 先週末の連休で皆油断しているといわれていたけど,やっぱり油断してた.今はちょっと緊張感を取り戻しつつある気がする. 使ったデータは「新型肺炎 OR 武漢 OR コロナ(ウイルス OR ウィルス) OR コロナ OR ウイルス OR ウィルス OR COVIT19 OR COVIT-19」で検索したツイート1月16日~3月26日までのリツイート以外の18,471,700件.リツイートじ

    新型コロナとツイート感情分析~3連休で本当に皆油断していたかどうか調べてみた|tori
  • データでわかる #うたの日 【機械学習編】|さちこ

    うたの日ではどんな短歌が評価されやすいのか知りたくないですか。だってハート欲しいじゃん。この記事ではdoc2vecと機械学習を用いて、短歌が「自由詠」の部屋に出詠された場合のハート数の予測を試みます。 この記事でやることうたの日はインターネット上で歌会を開催しているサイトです。普段は「題」に沿った短歌を募集していますが、月一で「自由詠」の部屋が出現します。 今回はうたの日の自由詠に出詠された短歌(1001日目から1393日目までの「自由詠」に出詠された2269首)について、機械学習で〈詠まれているものごとの傾向〉を学習し、それにもとづいて〈私の自作短歌(445首)がもし自由詠に出されたらいくつハートを獲得できるか〉を予測してみます。 ただ、結論を先に言ってしまうと、今回のこの試みはあまり上手くいっていません。 機械学習(教師あり学習)にできるのは、大まかには分類(=カテゴリの予想)と回帰(

    データでわかる #うたの日 【機械学習編】|さちこ
    sh19910711
    sh19910711 2018/05/10
    "うたの日はインターネット上で歌会を開催しているサイト"
  • 1