タグ

データマイニングに関するhysaのブックマーク (5)

  • バッドデータハンドブック

    TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した書は

    バッドデータハンドブック
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 第3回さくさくテキストマイニング勉強会 #sakutextmining

    2011年6月4日(土)に開催された第3回 さくさくテキストマイニング勉強会に参加してきました。 過去2回は青山にあるオラクル社の超豪華な会場をお借りして開催されたのですが、今回からは数理システム社のご厚意により新宿にあるセミナールームをお借りしての開催となりました。 数理システム様に感謝。 内容についてはすでに参加報告されている方々の記事をご参照ください。 id:nokuno:20110604:1307178783 [twitter:@nokuno]さん id:showyou:20110604 [twitter:@showyou]さん 第3回さくさくテキストマイニング勉強会に参加してきた [twitter:@holidayworking]さん [id:ToMmY:20110605:1307276971] [twitter:@tomy_kaira]さん ← KH Coder について作者の

    第3回さくさくテキストマイニング勉強会 #sakutextmining
  • 第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining - hamadakoichi blog

    4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。 ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND 運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。 以下、各講師資料、メモ、所感まとめ。 言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 ([Twitter:@AntiBayesian]) 資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 言語処理学会の中で実務に使えそうなものを紹介していく。 学会で最新の情報と仕事を得る。疑問点を解決する。 7の論文紹介、全てスキップw Wikipediaを利用しコーパス作成、カテゴライズが流行。やってみた

    第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining - hamadakoichi blog
  • きれいなおねいさんのあつめかた:Bijostagramのはなし。 - TMBのおぼえがき

    Bijostagram(びじょすたぐらむ)というWebサービスを作ってみました。 Bijostagram - Cute Girls on Instagram きれいなおねいさんは、好きですか? Bijostagramとは? Bijostagramは、きれいなおねいさんの画像がたくさん眺められるサービスです(個人的に作りました)。一番の大きな特徴は、Instagramから自動的にきれいなおねいさんの画像を集めてくる、というところです。Bijostagramでは、集めてきたおねいさん画像をランダムに表示しています。 Instagramは写真版Twitterで、しかも撮影した画像をオサレな感じで加工できてツイートできるというサービス。2月末に公式のAPIが公開されたので、いじってみました。→インスタグラムのAPIについてはこちら Bijostagramは、画像抽出と画像配置のアルゴリズムをPer

    きれいなおねいさんのあつめかた:Bijostagramのはなし。 - TMBのおぼえがき
  • 1