タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

機械学習に関するoh_cannot_angelのブックマーク (5)

  • 機械学習の入門本を書きました(データサイエンティスト養成読本) - 随所に主と作れば、立処皆真なり

    初めて執筆に参加した、データサイエンティスト養成読シリーズの機械学習入門編が技術評論社さんから出ます。共著です。9月10日発売です。 データサイエンティスト養成読 機械学習入門編 (Software Design plus) 作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹出版社/メーカー: 技術評論社発売日: 2015/09/10メディア: 大型この商品を含むブログを見る このブログを読んでいる人はすでに機械学習に詳しい人が多いと思いますが、周りでこれから機械学習使い始ようとしている方に薦めてもらえれば幸いです。特に、最初の一歩を踏み出せずにいる方に手にとって欲しいと願っています。 また、発売当日にはちょうど私も日に戻っており、執筆者が何人か集まって出版社主催のトークイベント(?)をする可能性もあるので、興味がある方はご参加

    機械学習の入門本を書きました(データサイエンティスト養成読本) - 随所に主と作れば、立処皆真なり
  • 相互情報量を用いた特徴選択 - 人工知能に関する断創録

    20 Newsgroupsで分類精度を評価(2010/6/18)のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基的に単語のことです。 特徴選択 前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categories: 20 accuracy: 0.802265156562となってました。documentsは訓練データの総文書数、categoriesは訓練データのカテゴリ数、vocabulariesは訓練データの総単語数を表します。テキスト分類において53852個の単語を考慮していることを意味します。しかし、この単語の中には分類に寄与しないばかりかノイズになって逆に性能を悪化させるような単語が含まれていることがあります。たとえば、the, in, toなどのストップワードがその一例です。そ

    相互情報量を用いた特徴選択 - 人工知能に関する断創録
  • 相互情報量 - Wikipedia

    相互情報量(そうごじょうほうりょう、英: mutual information)または伝達情報量(でんたつじょうほうりょう、英: transinformation)は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量である。最も典型的な相互情報量の物理単位はビットであり、2 を底とする対数が使われることが多い。 定義[編集] 形式的には、2つの離散確率変数 と の相互情報量は以下で定義される。 ここで、 は と の同時分布関数、 と はそれぞれ と の周辺確率分布関数である。 連続確率変数の場合、総和の代わりに定積分を用いる。 ここで、 は と の同時分布密度関数であり、 と はそれぞれ と の周辺確率密度関数である。 どちらの場合でも相互情報量は負とならず()、対称性がある()。 これらの定義は対数の底が明示されていない。離散確率変数の場合、最も一般的な相互情報量の尺

  • 素性選択について - hangyo22の日記(仮)

    最近、素性選択について少し悩んでます。 素性選択とは、機械学習に素性を与える際に、利用できるものを全て使うのではなく、有効そうなもののみを利用することを言います。 実は素性選択って機械学習において計算量以外でのメリットがあまりないのではないかと考えていました。 そもそも有効でない素性であれば学習時にほとんど重みが割り振られないと考えられるからです。 しかし、実際に今取り組んでいるタスクで実験をしてみると、直感的には分類に寄与しないと考えられる素性に結構重みが割り振られていて、誤りの原因になっているようです。 考えられる原因としてはタスクの性質があります。今回のタスクでは、正例には明らかに効きそうな素性があり、負例にはほとんど特徴がない、という性質があります。加えて、事例数は負例の方が数十倍となっています。 おそらく、分離超平面の位置を調整するバイアス項ではなく、正例・負例ともに出現する素性

    素性選択について - hangyo22の日記(仮)
  • NTT、「稼げる」研究所へ新組織 人工知能でビッグデータ技術を収益化  :日本経済新聞

    NTTが「稼げる」研究所を目指し、動き出した。これまで蓄積してきたビッグデータ解析などの技術を医療や小売りの現場で活用させるため、複数の研究所が連携する研究組織を4月に立ち上げた。NTTは長年、言語処理や音声認識技術などの先端技術を持ちながら、スマートフォン向けの音声ガイド機能では米アップルの「Siri(シリ)」などに実用化で先を越されてきた。グループ会社のNTTドコモは、5月には一時、時価総額がソフトバンクに抜かされた。新組織をテコに、研究所内に埋もれていた「未来のスマホ」や2020年度には1兆円に拡大する「ビッグデータ」市場の鍵を握る技術をサービスに結びつける狙いだ。 「果実のなる樹木をいち早く育てる」――。NTT技術研究機関、NTTコミュニケーション科学基礎研究所の成果発表会で3日、前田英作所長はこう語った。同研究所は、ドコモの音声でスマホを操作する「しゃべってコンシェル」のもとと

  • 1