タグ

オープンイノベーショと機械学習に関するSyunpeiのブックマーク (2)

  • 機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選

    の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無

    機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選
  • Pythonで学ぶ 基礎からの機械学習入門(5) 教師あり学習・分類をやってみよう - 決定木と過学習�

    分類とは 前回は、教師あり学習のなかでも連続値の予測手法である「回帰」に触れ、説明変数である人口密度、総生産額、コンビニの数などから、目的変数の家賃を予測することに挑戦しました。教師データを使い学習するプロセスは理解できましたでしょうか。 今回からは、予測する目的変数が離散値である教師あり学習「分類」に挑戦していきます。機械学習の分類は多くの場面で活用されます。簡単な事例だと、「スパムメールなのか、そうでないか」、「課金してくれる顧客なのか、そうでないか」のような2値の分類が挙げられます。また、2値分類だけではなく、多クラス分類も存在し、アヤメの種類を花弁の長さや幅等から3種類に分類する例等が挙げられます。 今回は、分類の代表的な手法である決定木を用いて、2値の分類に取り組んでいきます。また、教師あり学習を行ううえでは避けて通れない、過学習にも触れていきたいと思います。 データの準備 今回

    Pythonで学ぶ 基礎からの機械学習入門(5) 教師あり学習・分類をやってみよう - 決定木と過学習�
  • 1