ブックマーク / www.randpy.tokyo (7)

  • 「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた - Np-Urのデータ分析教室

    さて、今回はPythonによるword2vecの実践編です! word2vecって何??という方は、こちらの記事を一読してから記事に入って頂くといいかと思います。 www.randpy.tokyo (こちらとても高評価頂いております。ありがとうございます!!) 上のリンク先でも書きましたが、簡単にまとめると、word2vecを使うことで単語の意味をベクトル表現化することができます。 単語の意味をベクトル表現できると、 近い意味の単語を調べる 単語同士の意味を足したり引いたり といった嬉しいことが実現できます。 ということで今回は、タイトルにもある通りJK用語の代表格である”マジ卍”という言葉の意味を、word2vecに聞いてみたいと思います。 当は"マジ卍"の意味を直接JKに聞きたいのですが、JKの知り合いも当然いないですし……まぁここは頭を使ってデータを使えばなんか分かるっしょという

    「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた - Np-Urのデータ分析教室
  • 【ROC曲線とAUC】機械学習の評価指標についての基礎講座 - これで無理なら諦めて!世界一やさしいデータ分析教室

    機械学習ではモデルを作って終わり、ということは無く、モデル作成後にテストデータを使って「当に良いモデルなのか?」という評価を必ず行う必要があります。 では具体的にどのように評価をすれば良いのか?という話になりますが、今回は代表的な評価指標である ROC AUC ついて説明していきます。 この辺りについては、以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホだと数式がうまく表示されない可能性がありますので、こちらのリンク、もしくはPCから購読頂けますと幸いです。 正解率の問題点と、偽陽性率と真陽性率ROC・AUCに入る前に、それらを計算するための性能評価値につい

    【ROC曲線とAUC】機械学習の評価指標についての基礎講座 - これで無理なら諦めて!世界一やさしいデータ分析教室
  • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

    久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

    word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
  • 【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた - Np-Urのデータ分析教室

    前回まで、決定木・ランダムフォレストの理論について勉強しました。 www.randpy.tokyo www.randpy.tokyo 今回はPythonで実際に動かしていきたいと思います。扱うのは、タイタニック号の生存者データです。性別や年齢など、どんな要素が生存率に影響を与えていたのか、分析してみます。 なお、Pythonによる決定木・ランダムフォレスト のコード例は、以下の書籍にも記載されてますので、参考にしてみてください。 Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る これは、kaggleという世界的なデータ分析コンペティションで提供されているサンプルデータですので、ご存知の方も多く少し面白みには欠けますが、決定木とラン

    【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた - Np-Urのデータ分析教室
  • 決定木入門編 「ウォーリーを探せ」から考える不純度の考え方 - Np-Urのデータ分析教室

    機械学習の分野でよく使われる決定木について今回は説明していきます。 決定木は、回帰、分類問題に対して、非常によく使われる手法の一つで、あらゆる現場でよく使われているのではないかと思います。 アルゴリズム自体はとてもシンプルですし、R,Pythonにおいてパッケージも豊富というところもあり、 何よりも結果の可読性の高さが人気の一つの理由かと思います。 今回の進め方としては、以下のように進めていきます。 決定木って何?(ざっくり図から理解) 分割規則(不純度について) 決定木の理論面については、「はじめてのパターン認識」を参考にしていただくといいかと思います。 はじめてのパターン認識 作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行(ソフトカバー)購入: 1人 クリック: 7回この商品を含むブログ (5件) を見る 決定木とは 決定木は、条件分岐によ

    決定木入門編 「ウォーリーを探せ」から考える不純度の考え方 - Np-Urのデータ分析教室
  • 【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる - Np-Urのデータ分析教室

    今回はツイッターからツイートデータを取得し、それをWordCloudというライブラリを使って可視化してみたいと思います。 Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一例として今回やってみました! ちなみに、今回、好きな芸人の中の一人である、スピードワゴン小沢さんのツイートを取得して、可視化してみました。(勝手にごめんなさい。。。) 結果をまず先にお見せします! 今回の流れWord Cloudでは、頻出する単語ほど、つまり特徴的な単語ほど大きな文字で表示されます。右下の「好き」「幸せ」「友達」という言葉がまず目に入りました。 小沢さんのツイートは、とても詩的で素敵です。そんな小沢さんの人柄、芸術性溢れたツイート内容がうまく可視化できているのではないかと思います! さて、この図を

    【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる - Np-Urのデータ分析教室
  • 「CNNって何よ」って聞かれたら、とりあえずこう説明してみたら?という話 - Np-Urのデータ分析教室

    タイトルの通り、「CNN(畳み込みニューラルネットワーク)って何よ」とざっくりと質問された時に、自分だったらざっくりとこう説明してあげる、というのをまとめます。 この記事で説明している内容は、以下を元にしているので、よろしければ是非。 Pythonと実データで遊んで学ぶ データ分析講座 作者:梅津 雄一,中野 貴広発売日: 2019/08/10メディア: 単行(ソフトカバー) なお、スマホのAMPだと、数式がうまく表示されない可能性がありますので、こちらのリンクかPCから読んでいただけると。 まずニューラルネットって?畳み込みニューラルネットワークについて説明する前に、ニューラルネットワークも軽くおさらいしてあげましょう。 脳は入力を受け取ると、以下画像のように各神経細胞が反応しながら処理が次々と行われます。 ニューラルネットワークは、このような脳の神経伝達の働きを数理モデルとして落とし

    「CNNって何よ」って聞かれたら、とりあえずこう説明してみたら?という話 - Np-Urのデータ分析教室
  • 1