タグ

ブックマーク / qiita.com/takuya_tsurumi (2)

  • 機械学習のデータ前処理備忘録 - Qiita

    1.はじめに 前回の記事で機械学習は「データ前処理が8割」と書きました。 今回はそのデータ前処理として私が実施していることを備忘録として書いておきます。 まだまだ至らない点等あるかと思いますので、間違いなどご指摘いただけると幸いです。 2.前処理の必要性 まず、全体像から把握しておくことが大切なので、 機械学習の全体像で見た前処理の立ち位置を以下図に示します。 図.機械学習の全体像から見た前処理の立ち位置 前処理が必要な理由は以下のようなことが挙げられます。 ・機械学習のモデルは文字列データではなく数値データで渡す必要があるため ・上記同様、欠損値(null)があるデータも変換しないと機械学習のモデルに渡せないため ・精度を向上させるため ・リーケージの発生を防ぐため etc... 3.前処理の具体例 前処理は具体的に以下のようなことを実施します。 ・カテゴリーデータの処理 ・欠損値処理

    機械学習のデータ前処理備忘録 - Qiita
  • 機械学習初心者の私に告ぐ「4つの忠告」

    1.はじめに 業務で機械学習を使用することが決まり、約3ヶ月前から機械学習の勉強を始めました。 私自身理系大学出身であったため、数式も多少調べればわかるだろう程度に考えていました。 しかし、勉強すればするほど自分の考えが甘かったことに気づきました。 この記事では、当時私が実際にやってしまっていた思い込みへの忠告を書いていきます。 これから機械学習の勉強を始める方々の参考になれば幸いです。 2.4つの忠告 以下4つが機械学習初心者の頃の私へ送る忠告です。 ・ディープラーニングだけじゃ機械学習は網羅できない ・学習モデルのことだけではなく、全体像を見る必要がある。 ・データ前処理はすぐには終わらない。むしろ機械学習は前処理が8割。 ・評価方法は正解率だけではない。 それぞれ詳細について書いていきます。 2-1.ディープラーニングだけじゃ機械学習は網羅できない 機械学習=ディープラーニングという

    機械学習初心者の私に告ぐ「4つの忠告」
  • 1