TokyoWebminingのustを見ていて、doryokujinさんのMapReduce入門編の資料がわかりやすくてよかったです。Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜 View more presentations from Takahiro InoueMapReduceのアルゴリズムデザインに関しては、8月〜9月に邦訳も出るというMapReduce本を読んでいれば似た部分はわかりやすいと思います。MapReduce、とくにHadoopを使った場合のランダムサンプリングはどうやるのかなあ、というのが気になったのでちょっと考えてみました。 選択肢1:全データをシーケンシャルに読み込むdoryokujinさんの資料で説明されていた方法。Mapperで全データをシーケンシャルに読み込んでいき、[0,1]の乱数を返すrandom()関数が0.1以下ならば採用、と
2011/06/19 "第12回 データマイニング+WEB 勉強会@東京−機械学習MapReduce・大規模R解析 祭り−"を開催しました。 第12回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「データマイニング+WEB勉強会@東京 について」(10分) 講師 : id:hamadakoichi
いままで参加しようとおもってた勉強ですが、気づいたときには埋まっているのと、時間の長さで躊躇してなかなか参加できないでいました。 http://tokyowebmining11.eventbrite.com/ http://d.hatena.ne.jp/hamadakoichi/20110612/p1 詳しいことはhamadakoichiさんの方に書かれているので割愛。私の方の感想を。 1.Mahout.JP 自分もいずれMahoutを使ってみたいですが、まだ手が出せてない状態です。近いうちに触りたいです。 2.Fuzzy K-means u_ijの更新式が出てなかったですが(ってか更新式がある時点で私が質問してた,u_ijがシグモイド状に分布とかいうのはおかしな質問になりますが)、複雑に要素が絡む場合k-meansよりMapReduce向きではなさそうでした。 ちなみにK-meansであ
2011/06/12 "第11回 データマイニング+WEB 勉強会@東京−Mahout・Graphical Model・学術 祭り−"を開催しました。 第11回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 11th)−Mahout・Graphical Model・学術 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者一覧: 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「データマイニング+WEB勉強会@東京 について」(10分) 講師 : id:hamadakoichi
というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数
自分用にと思って作っていた自然言語処理・機械学習用のMacPortsですが、せっかくなので本家に登録してみました。 TinySVM: Support Vector Machines YamCha: Yet Another Multipurpose CHunk Annotator Google Code Archive - Long-term storage for Google Code Project Hosting. BACT: a Boosting Algorithm for Tree Classification http://crfpp.sourceforge.net/ pecco - C++ library for efficient classification with conjunctive features Palmkit - a statistical languag
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと
というわけで、第2回さくさくテキストマイニング勉強会にさくさく参加してきました。会場は前回に引き続きオラクルさん、の大会議室。200人入るらしい。節電中にも関わらず変わらずに無償のドリンクをご提供頂きありがとうございます(そこか。 言語処理学会へ遊びに行ったよ! 〜不自然言語処理へのお誘い〜 by @AntiBayesianさん 自己紹介 発表の目的 学会で得た実務に使えそうな内容を紹介 不自然言語処理へのお誘い 学会へ遊びに行こう! 学会に行けば、最新の情報がわんさか手に入る! 仕事してもらったり仕事もらったり 必ずチェックすべき10のブログ(易しい順) id:langstat, id:a_bicky, id:sleepy_yoshi, id:echizen_tm, id:overlast, id:isseing333, id:phosphor_m, id:nokuno, id:mick
ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を
第10回#TokyoWebminingに参加してきました。第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたw 1. 「エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで」 (講師: @jazzyslide)(発表:30分 + 議論30分)大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエン
「第1回 にこにこテキストマイニング勉強会 (#nicoTextMining)」([Twitter:@toilet_lunch] さん, [Twitter:@AntiBayesian] さん 主催) に参加してきた。実際にどう活用するかを目的した会。最近、毎週トークをしていましたが、今週は聴講者。 ATND: 第1回 にこにこテキストマイニング勉強会 : ATND 以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。 Togetter 第1回 にこにこテキストマイニング勉強会 #nicoTextMining #1 - Togetter 目的・概要 目的: テキストマイニングについての学習のスタートアップ テキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要: テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、 大量のアンケ
2011/01/16 "第9回 データマイニング+WEB 勉強会@東京−1st Week− 大規模解析・機械学習・クオンツ 祭り−"を開催しました。 第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)−1st Week− 大規模解析・機械学習・クオンツ 祭り−: ATND Google グループ ※会場参加者ID写真(id:bob3 さんに感謝) 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 今回、第9回では初めて開催期間を2週に渡り開催します(1/16, 23)。2週開催の目的は1."多くのテーマを対象とし"、かつ 、2."各テーマにしっかりと時間を充て、深い議論を行えるようにす
2010/11/14 "第8回 データマイニング+WEB 勉強会@東京"を開催しました。 第8回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#8) −大規模解析・ウェブ・クオンツ 祭り−: ATND Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場、USTREAMともに多くの方々の参加を嬉しく思っています。今後も「データマイニング+WEB 勉強会@東京」を、講師、参加者、双方にとってよりよい会としていきたいと思いますので、今後ともよろしくお願い致します。 次回は2011年1月 第2週か、3週の週末に開催予定です。みなさんぜひご参加下さい。 以下、講師資料一覧、ツイートまとめ、参加者の声、および、 次回第9回「大規模解析・自然言語処理・
gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
2010/09/26 "第7回 データマイニング+WEB 勉強会@東京"を開催しました。 第7回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#7) −機械学習・解析・セマンティックウェブ祭り−: ATND Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた [Twitter:@karubi] さん、[Twitter:@rinzo_rinrin]さん、 [Twitter:@nakamuu_m]さん、[Twitter:@yanaoki]さん、[Twitter:@ajiyoshi]さん、[Twitter:@yokkuns]さん、[Twitter:@buhii]さん、[Twitter:@doryokujin]さん、一緒に運営をしてくれた[Twitter:@yanaoki]さ
2. 自己紹介 ● Karubi Namuru ● 博士(理学) ● Twitter: @karubi ● Facebook: http://facebook.com/karubi ● 出身:広島 , 居住:東京 , Seongnam 3. 今日の内容 ● バスケット分析とはなにか ● どのようなときに有効か ● どのように分析しているのか ● 基本的な手順 ● アプリオリアルゴリズム ● FPGrowth 4. バスケット分析とはなにか ● 顧客が購入するものについて,「一緒に買われる商品」の組み 合わせを発見するための分析 ● 顧客はさまざまな時間に,さまざまな量の,さまざまな商 品を組み合わせて購入する ● アソシエーションルール ● データの傾向 ● 大量に蓄積している POS データや EC サイトのトランザ クションデータを使う
This document discusses Mahout, an Apache project for machine learning algorithms like classification, clustering, and pattern mining. It describes using Mahout with Hadoop to build a Naive Bayes classifier on Wikipedia data to classify articles into categories like "game" and "sports". The process includes splitting Wikipedia XML, training the classifier on Hadoop, and testing it to generate a co
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く