サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
blog.hassaku-labs.com
まずはざっくり箇条書き。もっと説明すべきところは、そのうち別の記事にするかも。 あと本記事内容は、ある分野での機械学習案件における知見であって、そこまで汎用的なものではないかもしれない。 全体的な雰囲気 機械学習技術が必要になる仕事は全体の2割程度。よって、機械学習技術に精通していなくても活躍できる場面は多い。 むしろ、AutoMLや機械学習部分を自動化するようなフレームワークやツールが増えてきており、その他8割の方が今後は重要になるとも言える。 もちろん、その他作業を効率良く進めるためには、詳しいメンバーがいるに越したことはない。 だいたいの流れ 解こうとしている課題の理解 本当に機械学習必要としているのかも早めに議論が必要 データの理解 可視化とか色々して仮説を立てる準備を整える この時点でゴミデータの存在には気づいておくことが大事 仮説の検討 人がちょっと考えて解ける問題は、入出力前
日本語の自然言語処理で分散表現を使おうと思った場合、まず頭に浮かぶのはword2vecだと思います。 特に分散表現自体の精度とかには興味がなく、それを使った対話システムを作りたいだけだったりするのであれば、 データクレンジングや学習には結構時間もかかるので、学習済みの公開モデルを使わせていただくのが手っ取り早そうです。 (単語ベクトルの準備に手間取り、モチベーション低下に繋がる悪い例:対話システムを作りたい!【準備編1】) 調べてみると、よく出来ていそうな公開モデルを2つ見つけたので、その利用方法と気になるベクトル次元数と単語数を調べてみました。 なお、どちらもWikipedia日本語版を学習元にしているようです。 word2vecを使うには、以下のバージョンのgensimを利用します。 $ pip freeze | grep gensim gensim==1.0.0 白ヤギコーポレーショ
このページを最初にブックマークしてみませんか?
『blog.hassaku-labs.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く