ayaniimi213のブックマーク - はてなブックマーク

bertで知る炎上とブランドイメージの関係 - にほんごのれんしゅう

bertで知る炎上とブランドイメージの関係イントロダクション近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存があると一般的に認識されているようです。 2020年は企業・国務に関連した多くの不祥事がありました。不祥事が起こるたびにその対策は行われてきましたが、炎上自体が引き起こす、ブランドイメージの低下等は定量化されていないようです。今回、twitterのデータと機械学習のbertと呼ばれるアルゴリズムを用いることで、炎上した企業・商品・公人がどのような影響を受けたかを定量化し、曖昧であった炎上のリスクを可視化したいと思います。類似した研究等クチコミによるネット炎上の定量化の試みとその検証ネット炎上の実態と政策的対応の考察どのように定量化したか tw

ayaniimi213 2021/02/12

リンク

Excelの光と影　~Excelデータ分析を超えていけ~ - にほんごのれんしゅう

Excelは便利なソフトで、あらゆる企業で使われている表計算ソフトウェアですが、国内ではその役割が拡張されドキュメント作成的な意味もあります。まともな使い方としてのExcelもあり、分析してと渡されることが多いフォーマットでもあります。私自身のいくつか経験した案件を踏まえ、Excelとその周辺文化がデータ分析の妨げになっているという感想を持っていて、可能な限り、客観的に示していこうと思います。 Excelの功罪一般的にExcelについてそのメリットやデメリットが語られる際、どのようなことが言われるのでしょうか。おそらくデータに携わる人では、このような共通認識があるかと思います。良い点小さいデータから完結に何かを述べるときに便利グラフが簡単にかけて、可視化する際に便利プログラミングなど複雑なことがわからなくても大丈夫悪い点セル結合はデータがパースが難しいかできない人間が

ayaniimi213 2019/01/07

リンク

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったことわたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataScienceに携わるものの価値の可視化の基軸の一つになっていますが、まだ取り掛かれない or 心が折れそう人のために、私に必要だったきっかけと、私が行ったモチベーションコントロールを含めて記します。まだまだkaggleは弱いですが、継続的に、日々の生活の中に組み入れるまでが大変でした。目次既存の機械学習関連の技術者にとってのKaggleの認識のあり方すでに機械学習アルゴリズムを知っているがやるべきか競技プログラミングは業務コーディングで役に立たないロジックが、Kaggleの業務のデータ分析との関係にも成り立つか挑

ayaniimi213 2018/05/21

リンク

DeepLearningでアップサンプリングする - にほんごのれんしゅう

DeepLearningでアップサンプリングするオーディオ界隈はオカルトっぽく見えていたので、今までどうしようと思っていたのですが、簡単な感じで結果がでました世の中、音のアップサンプリングや音質がよくなるような細工に本当に余念がないのですが、ディープラーニングでも簡単に対応することは可能です。世の常としてA/D変換されたデータは元のデータが欠落するから、音の復元は無理だと言われ[3]てきましたが、機械学習を使えばその制限は突破できます。 High Resolution ハイレゾは96kHz/24bitという高いサンプリング数と、高い解像度を誇ります。通常、YouTubeでは44kHz/16bitで音楽が再生されるので、及ばないのですが、22kHz/16bitの音源を44kHz/16bitに引き上げてみます。図1. 今回やりたいことこの中間を補填するロジックに深層学習を組み込みま

ayaniimi213 2018/03/26

リンク

Deep Learningによる分布推定 - にほんごのれんしゅう

Deep Learningによる分布推定例えばこのような連続する事象の確率分布がある横軸を時系列、縦軸を例えば企業の株価上がり下がり幅などとした場合、何か大局的なトレンドど業界のトレンドと国などのトレンドが入り混じり、単純な正規分布やベータ分布などを仮定できるものではなくなります。このとき、系列から学習して未来や未知の分布を直接求めることができ、かつ、異常値の検知などもしやすくすることなどを示したいと思います各系列で十分サンプリングでき、かつ、連続する事象の確率分布に対して予想したい場合例えば、この分布が日付のような連続なものとして扱われる場合、ある日のデータがサンプルできなかったり、まだサンプルが済んでない未来に対して予想しようとした場合、そういうことは可能なのでしょうか。ベイズでも可能ですが、せっかく十分にサンプリングできているので、ディープラーニングを用いて、KL距離、m

ayaniimi213 2018/03/04

リンク

brand-transition(ブランドの変遷) - にほんごのれんしゅう

brand-transition(ブランドの変遷) SVMで極性評価した単語をもちいて、声優のポジティブネスをniconicoニュースコーパスを利用して、時系列的に表現します時系列的な変遷を分析することで、バズの検知や、話題、炎上などをシステム的にキャッチアップしやすくなりますもともとの起草これは、もともともブランドの毀損などを評価しうるものとして、prophetなどの系列予想システムと連結させることで、急激なブランド毀損（炎上）などを検知して、炎上に対して適切な対応をとることにより、ブランドイメージを守ろうとするものでした(これは個人研究でやっていたのですが、３ヶ月ほど前にいろいろなところに提案しましたが、どこにも引き取ってもらえてないので、いくつか再スクラッチして自分の所有しているデータセットに変換し、公開ナレッジ化します) Amazon, Rakutenなどのレビューをコーパス

ayaniimi213 2018/02/02

リンク

RNNで暗号であるEnigmaを解く - にほんごのれんしゅう

RNNで暗号であるEnigmaを解く Enigma暗号とは 1918年に発明されたEnigmaは第二次世界大戦時に発明された暗号化機であり、電線の配線のパターンと、ロータといわれる入力するたびに回転する円盤のパターンで、様々な文字の置き換えを行います。ドイツ軍で用いたられたアルファベットの数だけ暗号化のもととなる配線が記された三つのロータを組み合わせて、膨大な動的に変換するパターンを構築して文字列を置換して、単純な交換則が成立しない複雑な暗号を構築して連合軍を苦しめました。図1. JavaScriptによるEnigma Simulator 連合国側のイギリスの特殊チームのULTRAによって解析されたようです。数学的な暗号の原理を追っているのですが、まだ完全にキャッチアップしきっておりませんが、群論とコンピュータのパワーとヒントとなるキーが人間の発想に依存するという特性を利用して解いたそ

ayaniimi213 2018/01/31

リンク

機械学習のスタックしていた案件をFacebook Prophetで３日で返済した話 - にほんごのれんしゅう

機械学習のスタックしていた案件をFacebook Prophetで３日で返済した話背景広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる（ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

ayaniimi213 2017/09/25

リンク

KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) - にほんごのれんしゅう

KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) ディープラーニングをやるようになって半年程度経ちましたある程度ならば、文章や画像判別モデルならば、過去の自分の資産をうまく活用することと、外部からState of the Artな手法を導入することで、様々なネットワークを組むことが可能になってまいりましたしかし、基礎の基礎であるはずの、Fizz Buzzをやるのを忘れていたのですやるしかありません先行研究 Fizz Buzz in TensorFlow Fizz Buzz Keras 全結合のモデルでの、Fizz Buzzの評価のようです提案 RNNでも、FizzBuzzは可能なのではないでしょうか全結合層のモデルのみで、1000 ~ 5000程度のデータで学習させることが多いですが、20万件のデータセットで学習させることで、より大きな数字にも対応

ayaniimi213 2017/07/05

リンク

前処理にディープラーニングを使う - にほんごのれんしゅう

前処理にディープラーニングを使う目的スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々あるデータセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性画像のスクリーニングを機械学習でやってしまおうという試みです前処理そのものにディープラーニングを投入する画像処理において、学習したい画像かどうかをスクリーニングすることは膨大なコストがかかるので、この作業自体を自動化したい今回はスクレイパーでいい加減にあつめたグラビア女優の画像7万枚超えを、手動でスクリーニングするのは極めて困難なので、VGG16を転移学習させてフィルタを作っていきます一枚10円で500枚のペア（positiveとnegative）のデータセットを知り合いのニートに作ってもらうニートの作成したデータセットをもとに、転移学習させてフィルタを構築システ

ayaniimi213 2017/04/23

リンク

word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう

word2vec, fasttextの差と実践的な使い方目次 Fasttextとword2vecの差を調査する実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したものただし、fasttextにはsubwordという仕組みが入っている図2. softmaxで共起確率を計算するあそんでみよう 2017年2～3月のTwitterのデータ

ayaniimi213 2017/04/01

リンク

alternative illustration2vec（高次元タグ予想器）について - にほんごのれんしゅう

alternative illustration2vec（高次元タグ予想器）について図1. 予想結果のサンプルはじめに今回はillustration2vecを去年10月に知り、実装法を模索していたが、Kerasでの転移学習と、目的関数を調整することで同様の結果が得られるのではないかという仮説に基づいて、検証実験を行った。 illustration2vecのような画像のベクトル化技術に関してはアプローチは複数用意されており、どのような方法がデファクトかつ、もっとも精度が良いのかわかっていない。以下、私が考えた３つの方法を記す。 1. VGG16などの学習済みモデルの出力部分のみを独自ネットワークの入力にすることで、タグ予想問題に切り替える 2. 上記のアプローチをとるが、入力に途中のネットワークのレイヤのベクトルも入力に加える 3. キャラクタ判別問題などにタスクを切り替えて、タスク

ayaniimi213 2017/03/13

リンク

ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう

ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。刺激を受けたスライドはこちら捗るリコメンドシステムの裏事情（ハッカドール） from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。問題と解決・問題１このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない・解決１ IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I

ayaniimi213 2015/05/10

リンク

はてなブックマーク

タグ

ブックマーク / catindog.hatenablog.com (13)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス