サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
猫
www.dskomei.com
近年、機械学習のアルゴリズムは目覚ましい発展を遂げ、機械学習を使ったサービスが広まっています。そして、今後も機械学習は注目され、さらなる成長が起こるでしょう。しかし、それと共に機械学習のモデルは大きくなっており、予測結果がブラックボックスになりがちです。その結果ビジネスにおいては、良い予測をするという点では良いことですが、予測結果の要因がわからなくなっているため、類似の事象で行動ができないといったことが起きています。 この問題が起きるのは、既存の機械学習では因果関係がわからないからです。その点、因果推定の文脈だと、反実仮想の考え方をベースにしたアプローチが主に研究されており、ここに機械学習のアルゴリズムが使われ始めています。 機械学習を使った因果推定では、反実仮想の仮想の結果を機械学習で予測する方法がメインでしたが、ディープラーニングのGAN(日本名:敵対的生成ネットワーク)を使って因果グ
インターネットの世界にニュースが溢れる昨今、満足度が高いものを的確に読みたいという方も多いかと思います。そのためには、見るニュースをどれにするか判断することが必要になります。そこで、ニュース全体の主旨を短い文章で表す要約の価値が高まっています。 自然言語処理における要約は、大きく2つに分けられます。それは、抽出型と抽象型です。抽出型は、文章の中から重要な文を抜き出すことで要約を作ります。要約として選ばれた文は元の文章にあるものなので、方向性が大きく異ることや誤字脱字がうまれる可能性は低いです。しかし、要約として選ばれた文のそれぞれは関係があるわけではないので、流暢な要約にならないことも多いです。それに対して、抽象型は人間が作るように要約としての文章の流暢さを考慮しながら作ります。本来人間がほしい要約はこちらになりますが、抽出型に比べると難易度が上がり、全く意味がわからない文章になる可能性も
中学生のときに目がよく合うと感じた人がいたら、それは自分に絶大な好意を持っているからだと思い込んでいましたよね。しかし、現実は思い出のままでした。それは、「よく目が合う」ことと「好意を持つ」ことは相関しているかもしれませんが、因果の関係とまでは言えないからです。自分の隣の人をガン見していたついでに自分を見ていただけかもしれません。まさに想いの交絡です。 正常な話に戻すと、因果を見つけることは大事です。因果がわかると次に何が起きるかを間違えることなく予測できます。まさに、預言者です。相関と因果は違うというのは頭ではわかっています。しかし、相関の壁を飛び越えていける人はごく僅かです。そこで今回は、因果関係を定量的に測定する統計的因果推定をPythonを使って行います。先人の方々が同じような内容をすでに書いていますが、傾向スコアマッチングとIPWの結果が異なっているという結論が多かったので、IP
テキストから示唆を作り出すテキストマイニングの一つとして、今回は文章から共起ネットワークを作ります。共起ネットワークは、同時に出現する単語の組み合わせをエッジで繋ぎ、単語間の関係をネットワークで表したものです。これにより、文章内の単語の関連性を可視化できます。 今回は、Pythonの「networkx」を使って、共起ネットワークを実装します。今回の記事で最終的に出来上がった共起ネットワークは以下になりました。 今回の記事のコードはここに置いてあります。 データの準備 必要モジュールのインポート データの取得と加工 共起ネットワークのためのデータ整形 エッジの重みJaccard係数 Jaccard係数の分布 共起ネットワークの作成 終わりに データの準備 共起ネットワークを描くためには、テキストを文章を1区切りとして分割し、文章ごとに同時に出現する単語の組み合わせリストを作る必要があります。
機械学習はデータが命です。データが精度を左右するので、精度を上げるためにデータを増やし、変数をどんどん追加してくという方向になりがちです。しかし、変数の数を多くすると、計算時間の増加をまねいたり、特定のクラスの一部のデータの影響で過学習したりなどの問題が起こります。 意味のある変数だけを抽出できたり、次元を減らすように要約できたりすれば、重要な要因がわかりますし、計算時間も減らせます。見たい番組が多すぎて色々ザッピングした結果、何も記憶に残っていないみたいなことがなくなります。今回は、このような変数の削減方法において見ていきます。 先に実装結果を示すと、各手法によって選択される変数が異なるため、同一の機械学習アルゴリズムで同一パラメータにおいてもテストデータの正答率が異なっています。今回は変数増加法の正答率が一番高く、もとの変数の1/2以下になっています。 今回取り上げる手法(各種法をクリ
SNSがコミュニケーションのインフラになりつつあることで、世の中は言葉で溢れています。この膨大な言葉の文章をまとめることで一つ一つの文章からはわからない傾向を新たに獲得することができます。具体的には、文章をカテゴライズして分類することで、どのカテゴリが人気なのかがわかったりします。これは機械学習の分類問題としてよく扱われていますが、重要な前提として「各文章は一つのカテゴリに属す」としています。しかしながら、いくつかのトピックが含まれている文章は多々あります。ファミレスでよく聞く井戸端談義はトピックだらけです。そこで、一つのカテゴリに分類するのではなく、分類に重要な単語(トピック)の重み付けで分類するようにしたのが、トピックモデルです。 今回は、文章の傾向を出現頻度やトピック抽出により理解していきます。そのために、単語の出現頻度をインパクトのある可視化をするWord Cloudと各文章をトピ
今回は、答えのないデータから、データの構造を見えるようにするクラスタリングについて述べていきます。クラスタリングとは、データが似ているものを一つのクラスタにまとめて情報を集約することによって、見通しを良くするものです。例えば、人の特徴を一人一人見るよりは、性別や世代にまとめて比較した方がわかりやすいです。 クラスタリングでよく使われるのはk-meansであり、k-meansに関する詳しいことは様々なところで述べられています。なので、このエントリではk-meansではなく、k-medoidsという手法に焦点を当てます。k-medoidsを一言で言えば外れ値に強いです。詳しいことは後ほど見ていきます。 今回は、k-medoidsに関して、分類後のクラスタの評価・初期化の改良・クラスタ数の自動決定を行っていきます。本エントリでは階層クラスタリングについての説明はないため、クラスタリングと言った場
このページを最初にブックマークしてみませんか?
『見習いデータサイエンティストの隠れ家』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く