タグ

ブックマーク / catindog.hatenablog.com (13)

  • bertで知る炎上とブランドイメージの関係 - にほんごのれんしゅう

    bertで知る炎上とブランドイメージの関係 イントロダクション 近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存があると一般的に認識されているようです。 2020年は企業・国務に関連した多くの不祥事がありました。不祥事が起こるたびにその対策は行われてきましたが、炎上自体が引き起こす、ブランドイメージの低下等は定量化されていないようです。 今回、twitterのデータと機械学習のbertと呼ばれるアルゴリズムを用いることで、炎上した企業・商品・公人がどのような影響を受けたかを定量化し、曖昧であった炎上のリスクを可視化したいと思います。 類似した研究等 クチコミによるネット炎上の定量化の試みとその検証 ネット炎上の実態と政策的対応の考察 どのように定量化したか tw

    bertで知る炎上とブランドイメージの関係 - にほんごのれんしゅう
  • Excelの光と影 ~Excelデータ分析を超えていけ~ - にほんごのれんしゅう

    Excelは便利なソフトで、あらゆる企業で使われている表計算ソフトウェアですが、国内ではその役割が拡張されドキュメント作成的な意味もあります。 まともな使い方としてのExcelもあり、分析してと渡されることが多いフォーマットでもあります。 私自身のいくつか経験した案件を踏まえ、Excelとその周辺文化データ分析の妨げになっているという感想を持っていて、可能な限り、客観的に示していこうと思います。 Excelの功罪 一般的にExcelについてそのメリットやデメリットが語られる際、どのようなことが言われるのでしょうか。 おそらくデータに携わる人では、このような共通認識があるかと思います。 良い点 小さいデータから完結に何かを述べるときに便利 グラフが簡単にかけて、可視化する際に便利 プログラミングなど複雑なことがわからなくても大丈夫 悪い点 セル結合はデータがパースが難しいかできない 人間が

    Excelの光と影 ~Excelデータ分析を超えていけ~ - にほんごのれんしゅう
  • Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう

    Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと わたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataScienceに携わるものの価値の可視化の基軸の一つになっていますが、まだ取り掛かれない or 心が折れそう人のために、私に必要だったきっかけと、私が行ったモチベーションコントロールを含めて記します。 まだまだkaggleは弱いですが、継続的に、日々の生活の中に組み入れるまでが大変でした。 目次 既存の機械学習関連の技術者にとってのKaggleの認識のあり方 すでに機械学習アルゴリズムを知っているがやるべきか 競技プログラミングは業務コーディングで役に立たないロジックが、Kaggleの業務のデータ分析との関係にも成り立つか 挑

    Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう
  • DeepLearningでアップサンプリングする - にほんごのれんしゅう

    DeepLearningでアップサンプリングする オーディオ界隈はオカルトっぽく見えていたので、今までどうしようと思っていたのですが、簡単な感じで結果がでました 世の中、音のアップサンプリングや音質がよくなるような細工に当に余念がないのですが、ディープラーニングでも簡単に対応することは可能です。 世の常としてA/D変換されたデータは元のデータが欠落するから、音の復元は無理だと言われ[3]てきましたが、機械学習を使えばその制限は突破できます。 High Resolution ハイレゾは96kHz/24bitという高いサンプリング数と、高い解像度を誇ります。 通常、YouTubeでは44kHz/16bit音楽が再生されるので、及ばないのですが、22kHz/16bitの音源を44kHz/16bitに引き上げてみます。 図1. 今回やりたいこと この中間を補填するロジックに深層学習を組み込みま

    DeepLearningでアップサンプリングする - にほんごのれんしゅう
  • Deep Learningによる分布推定 - にほんごのれんしゅう

    Deep Learningによる分布推定 例えばこのような連続する事象の確率分布がある 横軸を時系列、縦軸を例えば企業の株価上がり下がり幅などとした場合、何か大局的なトレンドど業界のトレンドと国などのトレンドが入り混じり、単純な正規分布やベータ分布などを仮定できるものではなくなります。 このとき、系列から学習して未来や未知の分布を直接求めることができ、かつ、異常値の検知などもしやすくすることなどを示したいと思います 各系列で十分サンプリングでき、かつ、連続する事象の確率分布に対して予想したい場合 例えば、この分布が日付のような連続なものとして扱われる場合、ある日のデータがサンプルできなかったり、まだサンプルが済んでない未来に対して予想しようとした場合、そういうことは可能なのでしょうか。 ベイズでも可能ですが、せっかく十分にサンプリングできているので、ディープラーニングを用いて、KL距離、m

    Deep Learningによる分布推定 - にほんごのれんしゅう
  • brand-transition(ブランドの変遷) - にほんごのれんしゅう

    brand-transition(ブランドの変遷) SVMで極性評価した単語をもちいて、声優のポジティブネスをniconicoニュースコーパスを利用して、時系列的に表現します 時系列的な変遷を分析することで、バズの検知や、話題、炎上などをシステム的にキャッチアップしやすくなります もともとの起草 これは、もともともブランドの毀損などを評価しうるものとして、prophetなどの系列予想システムと連結させることで、急激なブランド毀損(炎上)などを検知して、炎上に対して適切な対応をとることにより、ブランドイメージを守ろうとするものでした(これは個人研究でやっていたのですが、3ヶ月ほど前にいろいろなところに提案しましたが、どこにも引き取ってもらえてないので、いくつか再スクラッチして自分の所有しているデータセットに変換し、公開ナレッジ化します) Amazon, Rakutenなどのレビューをコーパス

    brand-transition(ブランドの変遷) - にほんごのれんしゅう
  • RNNで暗号であるEnigmaを解く - にほんごのれんしゅう

    RNNで暗号であるEnigmaを解く Enigma暗号とは 1918年に発明されたEnigmaは第二次世界大戦時に発明された暗号化機であり、電線の配線のパターンと、ロータといわれる入力するたびに回転する円盤のパターンで、様々な文字の置き換えを行います。 ドイツ軍で用いたられたアルファベットの数だけ暗号化のもととなる配線が記された三つのロータを組み合わせて、膨大な動的に変換するパターンを構築して文字列を置換して、単純な交換則が成立しない複雑な暗号を構築して連合軍を苦しめました。 図1. JavaScriptによるEnigma Simulator 連合国側のイギリスの特殊チームのULTRAによって解析されたようです。数学的な暗号の原理を追っているのですが、まだ完全にキャッチアップしきっておりませんが、群論とコンピュータのパワーとヒントとなるキーが人間の発想に依存するという特性を利用して解いたそ

    RNNで暗号であるEnigmaを解く - にほんごのれんしゅう
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
  • KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) - にほんごのれんしゅう

    KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) ディープラーニングをやるようになって半年程度経ちました ある程度ならば、文章や画像判別モデルならば、過去の自分の資産をうまく活用することと、外部からState of the Artな手法を導入することで、様々なネットワークを組むことが可能になってまいりました しかし、基礎の基礎であるはずの、Fizz Buzzをやるのを忘れていたのです やるしかありません 先行研究 Fizz Buzz in TensorFlow Fizz Buzz Keras 全結合のモデルでの、Fizz Buzzの評価のようです 提案 RNNでも、FizzBuzzは可能なのではないでしょうか 全結合層のモデルのみで、1000 ~ 5000程度のデータで学習させることが多いですが、20万件のデータセットで学習させることで、より大きな数字にも対応

    KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) - にほんごのれんしゅう
  • 前処理にディープラーニングを使う - にほんごのれんしゅう

    前処理にディープラーニングを使う 目的 スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々ある データセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性 画像のスクリーニングを機械学習でやってしまおうという試みです 前処理そのものにディープラーニングを投入する 画像処理において、学習したい画像かどうかをスクリーニングすることは膨大なコストがかかるので、この作業自体を自動化したい 今回はスクレイパーでいい加減にあつめたグラビア女優の画像7万枚超えを、手動でスクリーニングするのは極めて困難なので、VGG16を転移学習させてフィルタを作っていきます 一枚10円で500枚のペア(positiveとnegative)のデータセットを知り合いのニートに作ってもらう ニートの作成したデータセットをもとに、転移学習させてフィルタを構築 システ

    前処理にディープラーニングを使う - にほんごのれんしゅう
  • word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう

    word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する 図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したもの ただし、fasttextにはsubwordという仕組みが入っている 図2. softmaxで共起確率を計算する あそんでみよう 2017年2~3月のTwitterのデータ

    word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう
  • alternative illustration2vec(高次元タグ予想器)について - にほんごのれんしゅう

    alternative illustration2vec(高次元タグ予想器)について 図1. 予想結果のサンプル はじめに 今回はillustration2vecを去年10月に知り、実装法を模索していたが、Kerasでの転移学習と、目的関数を調整することで同様の結果が得られるのではないかという仮説に基づいて、検証実験を行った。 illustration2vecのような画像のベクトル化技術に関してはアプローチは複数用意されており、どのような方法がデファクトかつ、もっとも精度が良いのかわかっていない。 以下、私が考えた3つの方法を記す。 1. VGG16などの学習済みモデルの出力部分のみを独自ネットワークの入力にすることで、タグ予想問題に切り替える 2. 上記のアプローチをとるが、入力に途中のネットワークのレイヤのベクトルも入力に加える 3. キャラクタ判別問題などにタスクを切り替えて、タスク

    alternative illustration2vec(高次元タグ予想器)について - にほんごのれんしゅう
  • ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう

    ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。 刺激を受けたスライドはこちら 捗るリコメンドシステムの裏事情(ハッカドール) from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。 問題と解決 ・問題1 このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない ・解決1 IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I

    ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう
  • 1