ブックマーク / catindog.hatenablog.com (7)

  • 自作レコメンドで最適な読書体験をしたい - にほんごのれんしゅう

    最適な読書体験をしたい アマゾンなどでレコメンドされるを上から見ていても読書体験がそんなに良くありません。 の売り上げランキングなどは、大衆に受けるがほとんどであり、少々独特なセンスを持つ人たちにはそんなに受けが良くないです。 結果として現状の解決策がSNSや人づてに聞き及ぶぐらいしかないのとジャケ買いなどがせいぜいです どうあるべきかを考えるとき、仮に他人の棚を知ることができれば、集合知と機械学習を用いて自分に向いているだろうをレコメンドさせることができます 会社の技術共有会の小話で話した話 Matrix Factorization 2000年台のNetflix Prizeからある伝統的な手法で、シンプルで動作が早く、ユーザが多くアイテムの数がとても多いときに有効な手法です。 DeepLearningでも実装できるし、sklearnなどでも関数が用意されています。 コード 自分

    自作レコメンドで最適な読書体験をしたい - にほんごのれんしゅう
  • 5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう

    5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からすると、どうにも流行り廃りがあるようです。 5chの過去ログを過去18年ほどさかのぼって取得する方法と、懐かしいネットスラングのドキュメントに占める出現具合を時系列でカウントすることで、時代の変遷でどのように使用の方法が変化したのか観測することができます。 文末に「orz」って付けたら若い人から「orzってなんですか?」と聞かれて心身共にorzみたいになってる— ばんくし (@vaaaaanquish) October 19, 2018 図1. 今回集計したorzの結果 例えば、今回集計した5chの書き込み500GByte程度のログからで

    5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう
    Ez-style
    Ez-style 2018/11/12
    実況系は過去ログが保存されないはずなので、残念ながら、なんJは除外かな。あと旧ニュー速のように板自体が消えてるケースも?
  • 3つのレコメンド系アルゴリズム - にほんごのれんしゅう

    (誤字脱字が目立ったので、修正しました。。) 3つのレコメンド系アルゴリズム 協調フィルタリング fasttextでの購買時系列を考慮したアイテムベースのproduct2vec(skipgram) アイテムベースのtfidfなどの類似度計算を利用したレコメンド 1. 協調フィルタリング 協調フィルタリング自体は簡潔なアルゴリズムで、実装しようと思えば、簡単にできる類のものであるように思えるのですが、製品と製品の類似度を計算するのに、その製品を購入したユーザをベクトル列としてみなすと割と簡単に計算できます[5]。世の中のコンテンツはユーザの関連度の計算の方が多い気がしますが、今回はアイテムにひもづくユーザをベクトルにします 例えば、今回はbookmeter.comさまのユーザの読んだ情報を用いて、一人のユーザを一つのユニークな特徴量としてみなすことで、同士の関連度が計算可能になります A

    3つのレコメンド系アルゴリズム - にほんごのれんしゅう
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
  • にほんごのれんしゅう

    bertで知る炎上とブランドイメージの関係 イントロダクション 近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存があると一般的に認識されているようです。 2020年は企業・国務に関連した多くの不祥事がありました。不祥事が起こるたびにその対策は行われてきましたが、炎上自体が引き起こす、ブランドイメージの低下等は定量化されていないようです。 今回、twitterのデータと機械学習のbertと呼ばれるアルゴリズムを用いることで、炎上した企業・商品・公人がどのような影響を受けたかを定量化し、曖昧であった炎上のリスクを可視化したいと思います。 類似した研究等 クチコミによるネット炎上の定量化の試みとその検証 ネット炎上の実態と政策的対応の考察 どのように定量化したか tw

    にほんごのれんしゅう
  • CNNを利用したセンチメント分析 - にほんごのれんしゅう

    CNNを利用したセンチメント分析 Deep Learningを利用したテキスト解析が去年の12月ごろから盛んです。ネットの日語のQIITAやはてなブックマークを見ていると、流行したのが去年から今年の頭あたりでインパクトの強い文献は出尽くしているように見えます。2015年度12月を前後にLong short-term memoryやリカレントニューラルネットワークは自然言語処理、テキストマイニングで多大な功績を残しているケースが多いようです。 Deep Learningの基礎である、ニューラルネットワークは理論が提唱され有効性が実証されるが実現可能なコンピュータリソースが足りずに長いスリープタイムを経てきました。今回もまた長い眠りに入ってしまうのでしょうか。今回はビックなインパクトをシン・ゴジラなみに社会にぶちかましてほしいものです。 ■ 代表的なDeep Learningを用いたセン

    CNNを利用したセンチメント分析 - にほんごのれんしゅう
  • 教師なしRNNによる連続した不完全情報(主にテキスト)の補完 - にほんごのれんしゅう

    教師なしRNNによる連続した不完全情報(主にテキスト)の補完 背景 Google(や、過去の私のブログの投稿)などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。 テキストにも同じような問題が適応できるのかって思うことがあります。RNNはすでに記述されている文字をヒントとして次の文字を予想することができます。 その特性を利用して、情報が失われたテキストから復元を試みる例を示します。 (また、戦時中の戦艦に乗っていた搭乗員の劣化した手記から情報を復元したいという思いがあります。手記の海水に沈み腐敗が進んでいたり、筆記が乱れていて解析が困難であったりという点を補完できれば良いと思います。彼らの思い、可能な限り現代に蘇らせたいと思います。) 先行研究 今回は見当たらない(ほんとに存在しないんだったら、論文出したい) 手法 RNNで欠落した連続する情報を周辺の単語

    教師なしRNNによる連続した不完全情報(主にテキスト)の補完 - にほんごのれんしゅう
  • 1