タグ

ブックマーク / catindog.hatenablog.com (7)

  • 5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう

    5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からすると、どうにも流行り廃りがあるようです。 5chの過去ログを過去18年ほどさかのぼって取得する方法と、懐かしいネットスラングのドキュメントに占める出現具合を時系列でカウントすることで、時代の変遷でどのように使用の方法が変化したのか観測することができます。 文末に「orz」って付けたら若い人から「orzってなんですか?」と聞かれて心身共にorzみたいになってる— ばんくし (@vaaaaanquish) October 19, 2018 図1. 今回集計したorzの結果 例えば、今回集計した5chの書き込み500GByte程度のログからで

    5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう
    tuki0918
    tuki0918 2018/11/12
  • Alternative Implementation Of Illustration2Vec Ver2. - にほんごのれんしゅう

    Alternative Implementation Of Illustration2Vec Ver2. Alternative Illustration2Vec Ver2の概要 画像をタグ等の特定の特徴量に従ってベクトル化できる このベクトルとは通常画像分類で用いられるsoftmaxなどのマルチクラスではなく、softprobの(*1)問題として捉えることができる Version2の改善、変更点 Ver1に比べて探索的であって割とひどいコードを修正して、わかりやすく変えました 150x150の画像のサイズから、224x224にスケールアップしました BatchNormalizationだけでなく、DropOutも併用してネットワークのスパース性を高めました Msgpackを用いたKVSをやめて、ただのPickleで画像のシリアライズをする様になりました Keras V2のインターフェース

    Alternative Implementation Of Illustration2Vec Ver2. - にほんごのれんしゅう
    tuki0918
    tuki0918 2017/10/25
  • にほんごのれんしゅう

    bertで知る炎上とブランドイメージの関係 イントロダクション 近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存があると一般的に認識されているようです。 2020年は企業・国務に関連した多くの不祥事がありました。不祥事が起こるたびにその対策は行われてきましたが、炎上自体が引き起こす、ブランドイメージの低下等は定量化されていないようです。 今回、twitterのデータと機械学習のbertと呼ばれるアルゴリズムを用いることで、炎上した企業・商品・公人がどのような影響を受けたかを定量化し、曖昧であった炎上のリスクを可視化したいと思います。 類似した研究等 クチコミによるネット炎上の定量化の試みとその検証 ネット炎上の実態と政策的対応の考察 どのように定量化したか tw

    にほんごのれんしゅう
    tuki0918
    tuki0918 2017/09/24
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
    tuki0918
    tuki0918 2017/09/24
  • 前処理にディープラーニングを使う - にほんごのれんしゅう

    前処理にディープラーニングを使う 目的 スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々ある データセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性 画像のスクリーニングを機械学習でやってしまおうという試みです 前処理そのものにディープラーニングを投入する 画像処理において、学習したい画像かどうかをスクリーニングすることは膨大なコストがかかるので、この作業自体を自動化したい 今回はスクレイパーでいい加減にあつめたグラビア女優の画像7万枚超えを、手動でスクリーニングするのは極めて困難なので、VGG16を転移学習させてフィルタを作っていきます 一枚10円で500枚のペア(positiveとnegative)のデータセットを知り合いのニートに作ってもらう ニートの作成したデータセットをもとに、転移学習させてフィルタを構築 システ

    前処理にディープラーニングを使う - にほんごのれんしゅう
    tuki0918
    tuki0918 2017/04/24
  • alternative illustration2vec(高次元タグ予想器)について - にほんごのれんしゅう

    alternative illustration2vec(高次元タグ予想器)について 図1. 予想結果のサンプル はじめに 今回はillustration2vecを去年10月に知り、実装法を模索していたが、Kerasでの転移学習と、目的関数を調整することで同様の結果が得られるのではないかという仮説に基づいて、検証実験を行った。 illustration2vecのような画像のベクトル化技術に関してはアプローチは複数用意されており、どのような方法がデファクトかつ、もっとも精度が良いのかわかっていない。 以下、私が考えた3つの方法を記す。 1. VGG16などの学習済みモデルの出力部分のみを独自ネットワークの入力にすることで、タグ予想問題に切り替える 2. 上記のアプローチをとるが、入力に途中のネットワークのレイヤのベクトルも入力に加える 3. キャラクタ判別問題などにタスクを切り替えて、タスク

    alternative illustration2vec(高次元タグ予想器)について - にほんごのれんしゅう
    tuki0918
    tuki0918 2017/03/14
  • Doc2vecを利用したレコメンデーションシステム - にほんごのれんしゅう

    Doc2vecを利用したレコメンデーションシステム(は、諦めて盗用チェックツールとかのほうがいいかも) Embeddingという文字、文字列をベクトル化する技術機械学習、Deep Learning界隈で用いられているように見えます CNNよるセンチメント分析や、Word2Vec、Doc(Paragraph)2Vecなどで用いられています Doc2Vecとはドキュメントをベクトル化することで、足し算・引き算・コサイン類似度などを計算できるようにしたものです。ベクトル空間で表現されるので、何かと計算しやすく様々なアイディアが試されています。 Doc2VecはBag of wordsなどと異なり、一部のdmpvなどの実装においては単語の語順などの文法情報を保存することができます。この特性を利用して、センチメント分析を行うこともあるようです[1]。 モチベーション Kindleなどで読んだに近

    Doc2vecを利用したレコメンデーションシステム - にほんごのれんしゅう
    tuki0918
    tuki0918 2016/12/27
  • 1