nktng117のブックマーク (3)

  • 日本のアーティスト名は英語と日本語どちらが多いのか - 身の回りのデータサイエンス

    のアーティスト名は、SMAP・B'zのようなアルファベットのパターン、嵐・米津玄師のような漢字のパターン、AKB48のようなアルファベットと数字が混ざったパターンなど、様々なパターンが存在します。 ではどのパターンが最も多いのでしょうか? 日人アーティスト名のパターンを分析してみましょう。 データ 前処理 可視化 日語vs英語 宇多田ヒカル vs 浜崎あゆみ ゆず vs コブクロ 数字 まとめ データ 日人アーティストの一覧データはこちらのサイトから抽出します。記載されている3653組のアーティストを今回の分析対象とします。 rockinon.com 抽出方法はこちらのサイトを参考にしました。 www.wizard-notes.com 前処理 上記サイトのコードを使用すると、以下のデータが抽出できるので、ここから名前のパターンを判別したいと思います。 文字列の種類としては、アルフ

    日本のアーティスト名は英語と日本語どちらが多いのか - 身の回りのデータサイエンス
    nktng117
    nktng117 2024/05/06
    test
  • データ分析の教材でよく紹介されているデータ分析手法を実行しても、結果にがっかりされた話 - データ分析について色々と考えてみたブログ

    先日たまたま以下の記事を目にしました。 数億円かけたデータ分析でわかったのは、アホでも知ってる常識だった! | DX沼からの脱出大作戦 | ダイヤモンド・オンライン なかなかセンセーショナルなタイトルです。 以下はタイトルに関連する箇所の抜粋です。 かつて某大手品メーカーが数億円の費用を掛けて、コンビニにおける自社製品の売上を分析しようとしたことがありました。その結果、いったい何がわかったでしょうか。 なんと、「ペットボトルのお茶とおにぎりは、いっしょに買われることが多い」とわかったそうです。 (略) それにしても「ペットボトルのお茶とおにぎりがいっしょに売れている」ことがわかったところで、施策の取りようがありません。数億円掛けて、「でしょうね」としか言いようのない結果を得た担当者の嘆きはいかばかりだったでしょうか。 この件はその後結局どうなったのかは書かれてないので不明ですが、データ分

    データ分析の教材でよく紹介されているデータ分析手法を実行しても、結果にがっかりされた話 - データ分析について色々と考えてみたブログ
    nktng117
    nktng117 2024/05/06
    参考になりました。
  • 機械学習を使って地方競馬を予測する - Qiita

    最近競馬を始めたのですが、競馬の世界には統計学やAIを使って競馬予測をしている人たちがいるらしいです。自分も機械学習を使えば予測できるのではと思ったので、どれぐらい当たるのかやってみました! 目的 複勝の控除率は20%なので、ランダムに馬券を買い続けた場合、回収率は80%に収束するはずです。 競馬はランダムに買い続けても儲かるのか? - Qiita 実際に試したところ、確かに80%に近い値になりました。 なので、今回のゴールは機械学習を使って回収率80%を超えるAIを作ることです! データの取得 まずは過去レースのデータを集めます。中央競馬のスクレイピングコードはあがっているので、今回は地方競馬を対象にしました。地方競馬のデータは以下のサイトをスクレイピングして取得します。 http://www.keiba.go.jp/index.html 上記サイトのスクレイピングコードを公開します。

    機械学習を使って地方競馬を予測する - Qiita
    nktng117
    nktng117 2024/04/30
  • 1