タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとNLPと*serviceに関するsh19910711のブックマーク (8)

  • 事前学習済言語モデルの動向 (2) / Survey of Pretrained Language Models

    @東工大・産総研 勉強会

    事前学習済言語モデルの動向 (2) / Survey of Pretrained Language Models
    sh19910711
    sh19910711 2024/02/29
    "2019年10月25日、Googleは検索エンジンのアルゴリズムをBERTベースに + 12月10日には日本語含む / UniLM: マスクの入れ方で単方向・双方向・Seq2Seqを1モデルで制御 / ULMFit: 忘却を防ぐため徐々にunfreezing" / 2020
  • 多様なコンテンツをとどける、レコメンドベースのnoteのホームタイムラインをつくる|kiha

    記事では、note社内において、レコメンドとパーソナライズをベースにした新しいホームタイムラインのMVP(Minimal Viable Productの意、開発コードネームはHorizon)を開発した経緯や思想とその推移を、エンジニアの観点から書いている。PdM的な観点から書いた以下の記事も参照いただけると幸いである。 想定する読者としては、以下のような読者を想定している。 情報推薦や検索、データマイニング、機械学習の活用に興味があるエンジニア ちょっと賢い機能をコアとしたプロダクトを開発したいと思っているプロダクト志向のエンジニア パーソナライズや情報推薦をコアとしたプロダクトをマネジメントしている(しようとしている)プロダクトマネージャー 新しいホームタイムラインの実現のために、以下のような仕組みを実現した。 ユーザ閲覧履歴記事からのキーワード抽出 キーワード抽出 -> 記事推薦のア

    多様なコンテンツをとどける、レコメンドベースのnoteのホームタイムラインをつくる|kiha
    sh19910711
    sh19910711 2022/10/03
    "よいコンテンツは人によって異なる / 小説やエッセイといった内容が多岐にわたる記事を多く読んでいるユーザの興味のあるキーワードは抽出しにくい + 汎用的なキーワードが抽出 + 意味をなす結果が得られなかった"
  • Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita

    知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分

    Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
    sh19910711
    sh19910711 2022/08/24
    2019 / "Qiitaの正規ユーザーの投稿が多いのは夕方17時ごろと深夜23~24時だった。日報/日記的に投稿している人が多いのだろうか / スパム記事: ユーザ名の長さも重要(多分アルファベットの羅列は長くなりがち"
  • Qiitaベクトル v0.1: SCDVによるQiita記事のベクトル化 - Qiita

    from sklearn.mixture import GaussianMixture # hyper parameters num_clusters = 30 # cluster num of GMM clustering sparse_percentage = 0.01 # train scdv gmm = GaussianMixture(n_components=num_clusters, covariance_type="tied", init_params='kmeans', max_iter=50) scdv_model = SCDV(w2v_model=w2v_model, sc_model=gmm, sparse_percentage = sparse_percentage ) scdv_model.precompute_word_topic_vector(sentence

    Qiitaベクトル v0.1: SCDVによるQiita記事のベクトル化 - Qiita
    sh19910711
    sh19910711 2022/08/19
    2019 / "SCDV: EMNLP2017で発表 / やってみると、微妙なところが気になったのでv0.1にした。試したいことが色々でてきた / 今後やってみたいこと: 埋め込まれているコードの部分も使えたらQiitaっぽくて良い"
  • 「Twitter上のデマらしき話題を自動検知し、同時に判断材料を提供するシステム」の構想案

    sh19910711
    sh19910711 2022/08/10
    "ユーザが情報を信じている場合は「ひどい」「感動した」などの感情的表現が含まれることが多い / デマであると指摘しているツイートは「デマ」「ガセ」など直接的な言葉を使っているツイートが多い"
  • 「コロナ」に関するツイートをpythonで収集して、「コロナ」の影響で話題になった単語を自動検出する - Qiita

    Twitterデータのpythonでの収集方法と、時系列のテキストデータに対するバースト検出方法の説明です。 技術的には、以下の過去記事と同様です。 過去記事: 「クッパ姫」に関するツイートをpythonで収集して、バースト検出してみた https://qiita.com/pocket_kyoto/items/de4b512b8212e53bbba3 この時に採用した方法の汎用性を確認するために、2020年3月10日時点で話題の「コロナ」をキーワードとして、Twitterデータの収集と、「コロナ」と共起する語のバースト検出を実践してみました。 「コロナ」に関するツイートを収集する 収集方法は、基的に過去記事とほぼ同じです。 まずは、ライブラリの読み込みなど、ツイート収集の準備を行います。 # Twitterデータ収集用のログインキーの情報 KEYS = { # 自分のアカウントで入手した

    「コロナ」に関するツイートをpythonで収集して、「コロナ」の影響で話題になった単語を自動検出する - Qiita
    sh19910711
    sh19910711 2021/12/22
    "バースト検出という手法に関しては、書籍では、「ウェブデータの機械学習 (機械学習プロフェッショナルシリーズ)」に詳しくまとめられているようです / MACD: He and Parker が2010年に発表 + シンプル、かつ計算量が少ない"
  • 新型コロナとツイート感情分析~3連休で本当に皆油断していたかどうか調べてみた|tori

    新型コロナ関係のツイートをひたすら集め続けて2か月以上経過して,データもだいぶ充実してきました.共同研究者にも配布を始めたのですが,どうもデータ収集サーバのTimeZoneが狂っていたらしく,時間については信用できないデータになっていたので,一生懸命再構築中.とほほ. さて,基的にNLP(=自然言語処理)は苦手なんですが,新型コロナに関する感情がどのように変化しているのかを調べてみました. 結論から言えば, 先週末の連休で皆油断しているといわれていたけど,やっぱり油断してた.今はちょっと緊張感を取り戻しつつある気がする. 使ったデータは「新型肺炎 OR 武漢 OR コロナ(ウイルス OR ウィルス) OR コロナ OR ウイルス OR ウィルス OR COVIT19 OR COVIT-19」で検索したツイート1月16日~3月26日までのリツイート以外の18,471,700件.リツイートじ

    新型コロナとツイート感情分析~3連休で本当に皆油断していたかどうか調べてみた|tori
  • データでわかる #うたの日 【機械学習編】|さちこ

    うたの日ではどんな短歌が評価されやすいのか知りたくないですか。だってハート欲しいじゃん。この記事ではdoc2vecと機械学習を用いて、短歌が「自由詠」の部屋に出詠された場合のハート数の予測を試みます。 この記事でやることうたの日はインターネット上で歌会を開催しているサイトです。普段は「題」に沿った短歌を募集していますが、月一で「自由詠」の部屋が出現します。 今回はうたの日の自由詠に出詠された短歌(1001日目から1393日目までの「自由詠」に出詠された2269首)について、機械学習で〈詠まれているものごとの傾向〉を学習し、それにもとづいて〈私の自作短歌(445首)がもし自由詠に出されたらいくつハートを獲得できるか〉を予測してみます。 ただ、結論を先に言ってしまうと、今回のこの試みはあまり上手くいっていません。 機械学習(教師あり学習)にできるのは、大まかには分類(=カテゴリの予想)と回帰(

    データでわかる #うたの日 【機械学習編】|さちこ
    sh19910711
    sh19910711 2018/05/10
    "うたの日はインターネット上で歌会を開催しているサイト"
  • 1