タグ

ブックマーク / catindog.hatenablog.com (5)

  • 5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう

    5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からすると、どうにも流行り廃りがあるようです。 5chの過去ログを過去18年ほどさかのぼって取得する方法と、懐かしいネットスラングのドキュメントに占める出現具合を時系列でカウントすることで、時代の変遷でどのように使用の方法が変化したのか観測することができます。 文末に「orz」って付けたら若い人から「orzってなんですか?」と聞かれて心身共にorzみたいになってる— ばんくし (@vaaaaanquish) October 19, 2018 図1. 今回集計したorzの結果 例えば、今回集計した5chの書き込み500GByte程度のログからで

    5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう
  • ポアンカレエンベッディング - にほんごのれんしゅう

    ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係をとらえることができます[1] 理解 ポアンカレボールはこのような、外周部に行くほど密になる球みたいなものなのです。 図1. ハニカム構造のPoincare Ball(Wikipediaより) ポアンカレボールでは外に行くほど情報が密になり、空間が広がっているともとらえます。 数式で表現するとこのようになって、 gEというユークリッド距離がxが1に近づけば無限に大きくなることがわかります。 このポアンカレボール上にある二点間の距離はこのように表現され、単純なユークリッド距離ではないことが見て取れます。 この距離関数に基づいて損失関数L(

    ポアンカレエンベッディング - にほんごのれんしゅう
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
  • ウィキペディア日本語版 tf-idfのidf辞書の公開 - にほんごのれんしゅう

    nora(野良)-idf-dic モチベーション LevelDB(kvs)を利用した省メモリ設計で、すべてのWikipediaのコンテンツコンテンツを取得して処理したい XGBoostやElasticNetなど他のアルゴリズムでの前処理にを楽にしたい JSONスキーマなので、Python以外の他のスクリプト言語でも利用可能にしたい ダウンロードリンク Dropboxにアップロードしております。 www.dropbox.com フォーマット idfはjsonのdict型(ハッシュマップとも言います)です。 idf = { term1: weight1, term2:weight2, ... } このようなフォーマットになっており、単語とidfの重みがペアになって格納されています。 式の説明 tf-idfはヒューリスティックなものなので、そもそも明確なんてないんですが、一番、わたしとわたしの周

    ウィキペディア日本語版 tf-idfのidf辞書の公開 - にほんごのれんしゅう
  • ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう

    ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。 刺激を受けたスライドはこちら 捗るリコメンドシステムの裏事情(ハッカドール) from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。 問題と解決 ・問題1 このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない ・解決1 IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I

    ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう
  • 1