[B! mining] kshimo69のブックマーク

http://blog.yuku-t.com/entry/20110620/1308506651

kshimo69 2011/06/20

mining

リンク

Hadoopを使ってサンプリングを行なうには - nokunoの日記

TokyoWebminingのustを見ていて、doryokujinさんのMapReduce入門編の資料がわかりやすくてよかったです。Map Reduce 〜入門編：仕組みの理解とアルゴリズムデザイン〜 View more presentations from Takahiro InoueMapReduceのアルゴリズムデザインに関しては、8月〜9月に邦訳も出るというMapReduce本を読んでいれば似た部分はわかりやすいと思います。MapReduce、とくにHadoopを使った場合のランダムサンプリングはどうやるのかなあ、というのが気になったのでちょっと考えてみました。選択肢1：全データをシーケンシャルに読み込むdoryokujinさんの資料で説明されていた方法。Mapperで全データをシーケンシャルに読み込んでいき、[0,1]の乱数を返すrandom()関数が0.1以下ならば採用、と

kshimo69 2011/06/20

mining

リンク

第12回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 12th)－機械学習MapReduce・大規模R解析祭り－を開催しました - hamadakoichi blog

2011/06/19 "第12回データマイニング+WEB 勉強会＠東京−機械学習 MapReduce・大規模R解析祭り−"を開催しました。第12回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 12th)−機械学習 MapReduce・大規模R解析祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイニング+WEB勉強会＠東京について」(10分) 講師： id:hamadakoichi

kshimo69 2011/06/19

mining

リンク

第11回データマイニング+WEB＠東京に参加してきた - White scenery @showyou, hatena

いままで参加しようとおもってた勉強ですが、気づいたときには埋まっているのと、時間の長さで躊躇してなかなか参加できないでいました。 http://tokyowebmining11.eventbrite.com/ http://d.hatena.ne.jp/hamadakoichi/20110612/p1 詳しいことはhamadakoichiさんの方に書かれているので割愛。私の方の感想を。 1.Mahout.JP 自分もいずれMahoutを使ってみたいですが、まだ手が出せてない状態です。近いうちに触りたいです。 2.Fuzzy K-means u_ijの更新式が出てなかったですが(ってか更新式がある時点で私が質問してた,u_ijがシグモイド状に分布とかいうのはおかしな質問になりますが)、複雑に要素が絡む場合k-meansよりMapReduce向きではなさそうでした。ちなみにK-meansであ

kshimo69 2011/06/13

mining

リンク

第11回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 11th) －Mahout・Graphical Model・学術祭り－を開催しました - hamadakoichi blog

2011/06/12 "第11回データマイニング+WEB 勉強会＠東京−Mahout・Graphical Model・学術祭り−"を開催しました。第11回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 11th)−Mahout・Graphical Model・学術祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者一覧：以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイニング+WEB勉強会＠東京について」(10分) 講師： id:hamadakoichi

kshimo69 2011/06/12

mining

リンク

第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

というわけで参加してきました。会場は数理システムさんです。第3回さくさくテキストマイニング勉強会 : ATND 入門セッション（AntiBayesian）第三回さくさくテキストマイニング勉強会　入門セッション View more presentations from AntiBayesian 単語重要度入門〜テキストをダイエットさせよう〜（ toilet_lunch ） TF*IDFの話えっ私のテキストマイニング力低すぎ！？例：大量のアンケートの自由回答文から重要な単語を抜き出す例：エビオス嬢についての文章 TF*IDFとは TF（単語の頻度） * IDF（単語が含まれる文書割合の逆数（の対数））直感的ば解釈：ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表しているなんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数

kshimo69 2011/06/04

NLP
mining

リンク

自然言語処理・機械学習ツールのMacPortsを登録 - 自然言語処理 on Mac

自分用にと思って作っていた自然言語処理・機械学習用のMacPortsですが、せっかくなので本家に登録してみました。 TinySVM: Support Vector Machines YamCha: Yet Another Multipurpose CHunk Annotator Google Code Archive - Long-term storage for Google Code Project Hosting. BACT: a Boosting Algorithm for Tree Classification http://crfpp.sourceforge.net/ pecco - C++ library for efficient classification with conjunctive features Palmkit - a statistical languag

kshimo69 2011/05/13

mining

リンク

TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇（大学教授が長期の休みを取れる制度）でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitter エンジニアの@squarecogさんと

kshimo69 2011/04/21

mining

リンク

第2回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

というわけで、第2回さくさくテキストマイニング勉強会にさくさく参加してきました。会場は前回に引き続きオラクルさん、の大会議室。200人入るらしい。節電中にも関わらず変わらずに無償のドリンクをご提供頂きありがとうございます（そこか。言語処理学会へ遊びに行ったよ！〜不自然言語処理へのお誘い〜 by @AntiBayesianさん自己紹介発表の目的学会で得た実務に使えそうな内容を紹介不自然言語処理へのお誘い学会へ遊びに行こう！学会に行けば、最新の情報がわんさか手に入る！仕事してもらったり仕事もらったり必ずチェックすべき10のブログ（易しい順） id:langstat, id:a_bicky, id:sleepy_yoshi, id:echizen_tm, id:overlast, id:isseing333, id:phosphor_m, id:nokuno, id:mick

kshimo69 2011/04/17

mining

リンク

ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか？」という文章を、「エアポートの無線ネットワークはどうやって設定しますか？」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。そこで、この高度な作業を

kshimo69 2011/04/11

リンク

第10回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習祭り− - nokunoの日記

第10回#TokyoWebminingに参加してきました。第10回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたｗ 1. 「エンジニアのためのアドテクノロジー再入門：アドテクの基礎からRealTimeBiddingまで」 (講師： @jazzyslide)(発表：30分 + 議論30分)大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエン

kshimo69 2011/02/27

mining

リンク

第１回にこにこテキストマイニング勉強会 ( #nicoTextMining #1) に参加してきた - hamadakoichi blog

「第１回にこにこテキストマイニング勉強会 (#nicoTextMining)」([Twitter:@toilet_lunch] さん, [Twitter:@AntiBayesian] さん主催) に参加してきた。実際にどう活用するかを目的した会。最近、毎週トークをしていましたが、今週は聴講者。 ATND: 第1回にこにこテキストマイニング勉強会 : ATND 以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。 Togetter 第１回にこにこテキストマイニング勉強会 #nicoTextMining #1 - Togetter 目的・概要目的：テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要：テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケ

kshimo69 2011/02/19

mining

リンク

第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ祭り− を開催しました - hamadakoichi blog

2011/01/16 "第９回データマイニング+WEB 勉強会＠東京−1st Week− 大規模解析・機械学習・クオンツ祭り−"を開催しました。第９回データマイニング+WEB 勉強会＠東京　( TokyoWebmining 9)−1st Week− 大規模解析・機械学習・クオンツ祭り−: ATND Google グループ ※会場参加者ID写真（id:bob3 さんに感謝) 会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。今回、第９回では初めて開催期間を２週に渡り開催します(1/16, 23)。２週開催の目的は１．"多くのテーマを対象とし"、かつ、２．"各テーマにしっかりと時間を充て、深い議論を行えるようにす

kshimo69 2011/01/22

mining

リンク

第８回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ祭り−を開催しました - hamadakoichi blog

2010/11/14 "第8回データマイニング+WEB 勉強会＠東京"を開催しました。第8回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#8) −大規模解析・ウェブ・クオンツ祭り−: ATND Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場、USTREAMともに多くの方々の参加を嬉しく思っています。今後も「データマイニング+WEB 勉強会＠東京」を、講師、参加者、双方にとってよりよい会としていきたいと思いますので、今後ともよろしくお願い致します。次回は2011年１月第２週か、３週の週末に開催予定です。みなさんぜひご参加下さい。以下、講師資料一覧、ツイートまとめ、参加者の声、および、次回第９回「大規模解析・自然言語処理・

kshimo69 2010/11/21

mining

リンク

hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

gumiの粟飯原です。データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。大規模データの解析日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

kshimo69 2010/10/09

リンク

第７回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog

2010/09/26 "第７回データマイニング+WEB 勉強会＠東京"を開催しました。第７回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#7) −機械学習・解析・セマンティックウェブ祭り−: ATND Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた [Twitter:@karubi] さん、[Twitter:@rinzo_rinrin]さん、 [Twitter:@nakamuu_m]さん、[Twitter:@yanaoki]さん、[Twitter:@ajiyoshi]さん、[Twitter:@yokkuns]さん、[Twitter:@buhii]さん、[Twitter:@doryokujin]さん、一緒に運営をしてくれた[Twitter:@yanaoki]さ

kshimo69 2010/09/27

まとめ

mining

リンク

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

「はじめてでもわかるRandomForest (ランダムフォレスト) 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京濱田晃一 (hamadakoichi) Read less

kshimo69 2010/09/26

mining

リンク

相関マイニング（バスケット分析）

2. 自己紹介 ● Karubi Namuru ● 博士（理学） ● Twitter: @karubi ● Facebook: http://facebook.com/karubi ● 出身：広島 , 居住：東京 , Seongnam 3. 今日の内容 ● バスケット分析とはなにか ● どのようなときに有効か ● どのように分析しているのか ● 基本的な手順 ● アプリオリアルゴリズム ● FPGrowth 4. バスケット分析とはなにか ● 顧客が購入するものについて，「一緒に買われる商品」の組み合わせを発見するための分析 ● 顧客はさまざまな時間に，さまざまな量の，さまざまな商品を組み合わせて購入する ● アソシエーションルール ● データの傾向 ● 大量に蓄積している POS データや EC サイトのトランザクションデータを使う

kshimo69 2010/09/26

mining

リンク

はじめてでもわかるベイズ分類器－基礎からMahout実装まで－

This document discusses Mahout, an Apache project for machine learning algorithms like classification, clustering, and pattern mining. It describes using Mahout with Hadoop to build a Naive Bayes classifier on Wikipedia data to classify articles into categories like "game" and "sports". The process includes splitting Wikipedia XML, training the classifier on Hadoop, and testing it to generate a co

kshimo69 2010/09/26

mining

リンク

Mahout in Action

pro $24.99 per month access to all Manning books, MEAPs, liveVideos, liveProjects, and audiobooks! choose one free eBook per month to keep exclusive 50% discount on all purchases lite $19.99 per month access to all Manning books, including MEAPs! team 5, 10 or 20 seats+ for your team - learn more

kshimo69 2010/09/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

miningに関するkshimo69のブックマーク (20)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス