@東工大・産総研 勉強会

本記事では、note社内において、レコメンドとパーソナライズをベースにした新しいホームタイムラインのMVP(Minimal Viable Productの意、開発コードネームはHorizon)を開発した経緯や思想とその推移を、エンジニアの観点から書いている。PdM的な観点から書いた以下の記事も参照いただけると幸いである。 想定する読者としては、以下のような読者を想定している。 情報推薦や検索、データマイニング、機械学習の活用に興味があるエンジニア ちょっと賢い機能をコアとしたプロダクトを開発したいと思っているプロダクト志向のエンジニア パーソナライズや情報推薦をコアとしたプロダクトをマネジメントしている(しようとしている)プロダクトマネージャー 新しいホームタイムラインの実現のために、以下のような仕組みを実現した。 ユーザ閲覧履歴記事からのキーワード抽出 キーワード抽出 -> 記事推薦のア
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分
from sklearn.mixture import GaussianMixture # hyper parameters num_clusters = 30 # cluster num of GMM clustering sparse_percentage = 0.01 # train scdv gmm = GaussianMixture(n_components=num_clusters, covariance_type="tied", init_params='kmeans', max_iter=50) scdv_model = SCDV(w2v_model=w2v_model, sc_model=gmm, sparse_percentage = sparse_percentage ) scdv_model.precompute_word_topic_vector(sentence
Twitterデータのpythonでの収集方法と、時系列のテキストデータに対するバースト検出方法の説明です。 技術的には、以下の過去記事と同様です。 過去記事: 「クッパ姫」に関するツイートをpythonで収集して、バースト検出してみた https://qiita.com/pocket_kyoto/items/de4b512b8212e53bbba3 この時に採用した方法の汎用性を確認するために、2020年3月10日時点で話題の「コロナ」をキーワードとして、Twitterデータの収集と、「コロナ」と共起する語のバースト検出を実践してみました。 「コロナ」に関するツイートを収集する 収集方法は、基本的に過去記事とほぼ同じです。 まずは、ライブラリの読み込みなど、ツイート収集の準備を行います。 # Twitterデータ収集用のログインキーの情報 KEYS = { # 自分のアカウントで入手した
新型コロナ関係のツイートをひたすら集め続けて2か月以上経過して,データもだいぶ充実してきました.共同研究者にも配布を始めたのですが,どうもデータ収集サーバのTimeZoneが狂っていたらしく,時間については信用できないデータになっていたので,一生懸命再構築中.とほほ. さて,基本的にNLP(=自然言語処理)は苦手なんですが,新型コロナに関する感情がどのように変化しているのかを調べてみました. 結論から言えば, 先週末の連休で皆油断しているといわれていたけど,やっぱり油断してた.今はちょっと緊張感を取り戻しつつある気がする. 使ったデータは「新型肺炎 OR 武漢 OR コロナ(ウイルス OR ウィルス) OR コロナ OR ウイルス OR ウィルス OR COVIT19 OR COVIT-19」で検索したツイート1月16日~3月26日までのリツイート以外の18,471,700件.リツイートじ
うたの日ではどんな短歌が評価されやすいのか知りたくないですか。だってハート欲しいじゃん。この記事ではdoc2vecと機械学習を用いて、短歌が「自由詠」の部屋に出詠された場合のハート数の予測を試みます。 この記事でやることうたの日はインターネット上で歌会を開催しているサイトです。普段は「題」に沿った短歌を募集していますが、月一で「自由詠」の部屋が出現します。 今回はうたの日の自由詠に出詠された短歌(1001日目から1393日目までの「自由詠」に出詠された2269首)について、機械学習で〈詠まれているものごとの傾向〉を学習し、それにもとづいて〈私の自作短歌(445首)がもし自由詠に出されたらいくつハートを獲得できるか〉を予測してみます。 ただ、結論を先に言ってしまうと、今回のこの試みはあまり上手くいっていません。 機械学習(教師あり学習)にできるのは、大まかには分類(=カテゴリの予想)と回帰(
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く