この記事は abicky.net の R による文書分類入門 & KNB コーパスの文書分類 に移行しました
第31回Tokyo.Rを開催しました。 ※ 資料がまだのものは、公開され次第追記します! 前半(初心者セッション) 初心者セッション1 (所沢義男) TokyoR#31 初心者セッション from TokorosawaYoshio Rによるやさしい統計学 第7章 分散分析(後半の後半) (@aad34210) Tokyo r30 anova_part2 from Takashi Minoda 中の人が語る seekR.jp の裏技 (@hiratake55) 中の人が語る seekR.jp の裏側 from hiratake55 後半 始めよう多変量解析〜主成分分析編〜 (@sanoche16) Tokyor31 from Hiroki Sano R言語で学ぶマーケティング分析 – 競争ポジショニング戦略 – (@yokkuns) R言語で学ぶマーケティング分析 競争ポジショニング戦略 f
CEDEC2013にて発表させていただいた内容の一般公開用スライドです。 ネットサービスの基本中の基本とされるKPI 「DAU(Daily Active Users)」。売上の分解にも使いやすく、複数のサービスを比較するときには必須の指標です。しかし、運営の現場では「ノイズが多くて使いにくい」「経営者(えらい人)にサービスの状況の誤解を与える」という扱いを受けがちな指標でもあります。 セッションの内容 : 本セッションでは、ソーシャルゲームのDAUを題材に、測り方にほんの少し工夫(工夫の方法は汎用的なものです)を加えることで、DAUを現場の肌感覚にもあう指標に変身させる方法、特に、運営期間が長くなったサービスにおける課題抽出に活用する方法をご紹介します。 発表日時 : 2013年8月23日(金) 16:30~17:30 詳細URL : http://cedec.cesa.or.jp/201
はじめに 本研究会は,研究報告の質 (reporting quality) 向上のための統計学の勉強会です。2か月に1度程度,東京都内で開催しています。 臨床疫学系の研究者の多くは,統計学の専門家ではありません。我々は,論文を書くための「道具」として,統計学を使っています。我々が論文を書く際は,より良い研究になるように,「適切」に方法や結果を記述したいと願っています。国際的には,統計手法別に,どういう情報を論文で記述するべきかを規定しているガイドライン (reporting guideline) が数多く公表されています。しかし,我々は,残念ながら,こういったガイドラインの学習にまで,なかなか手を伸ばせないために,「ある統計手法を使ったものの,どのように論文に報告すれば良いかわからない」といった問題によく遭遇していると思います。 こうした問題を解決すべく,本研究会では,「データ解析環境Rを
2. 解析動機 2013年5月18日Tokyo WebMining #26 2 最後の春だし画像処理の勉強でもしとくか 後輩からAV女優の類似画像検索の話を聞く (ぱろすけ 2012) DMMにはアフィリエイトあったよな これでウェブサービス作れば儲かるかも 決して下半身からの要望で解析したのではありません http://blog.parosky.net/archives/1506 3. 計算環境 2013年5月18日Tokyo WebMining #26 3 使用言語:Python 2.7 (少しだけR) 使用モジュール:Numpy, Scipy, OpenCV 科学技術計算用のライブラリ MATLABにできることは大体できる numpy.ndarray 型付き多次元配列 numpy.linalg 線形代数計算 scipy.cluster 今回はこれのk-means法を使用
概要 HOG(Histogram of Oriented Gradients)を知らないゴリラはいない。 中部大学 藤吉研究室 http://www.vision.cs.chubu.ac.jp/joint_hog/pdf/HOG+Boosting_LN.pdf 東工大 画像解析論 http://www.isl.titech.ac.jp/~nagahashilab/member/longb/imageanalysis/LectureNotes/ImageAnalysis07.pdf 以下では、ある点の近傍を1ブロックとして、そのHOG特徴量のみを計算する。 一般的なHOGの計算では画像領域を格子状のブロックに分け、各ブロックの位置(格子点)で特徴量を計算してそれらを連結する。 しかし、これを素朴に実装すると問題が発生する。 たとえば人物検出で探索窓をスライドさせるとき、計算に用いるセルは数ピ
NagoyaStat #9 で使用した資料です(公開に当たって口頭の内容を補完したものになります)。 「StanとRでベイズ統計モデリング」の第7章になります。 内容は単に回帰分析を行うだけではダメなケースについての取り扱い方について、著者の流儀について理解しようというものになります。 --- The title of textbook is "Bayesian statistical modeling with Stan and R", and that of Chapter 7 in textbook is "Troublesome situation in regression analysys" in English.
マーケティング施策や商品開発の糸口を発見する為に購買履歴データでネットワーク分析を行っているのだが、今年に入りノードやエッジの数が多い隣接行列を取り扱うようになってきた。といってもまだまだビッグデータとはいいがたいが。。。cytoscapeにくわせOrganicレイアウトで表示するとこんな感じです。(他の設定はデフォルト) 今後はもっとデータ量が多くなりそうなので、ネットワーク分析をもうちょっと勉強。 これまで参考にしていたのはRで学ぶデータサイエンスの#8ネットワーク分析。R+igraphで中心性指標を計算したり、コミュニティの抽出などはさくさくできる。会社の先輩に話をすると、もっと勉強になる資料があるよと九州工業大学の竹本先生の資料を教えてくれた。2013/3/8に開催された第2回 Rでつなぐ次世代オミックス情報統合解析研究会で発表された資料らしい。タイトルは「R+igraphではじめ
やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい? 面白い話がtwitterに流れていたので紹介したい。 日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した靴屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う? twitterでは皆がこのニュースに対して嘲笑を投げかけていた。 そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。 データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。 そう、データマイニングに必要なのは意外性だ! あの靴屋は全く馬鹿なことをしたもんだ、ゲラゲラ! OK、笑いが取れたようなので、もう一つ同じような話
Yahoo! JAPANトップページの機能を正しくご利用いただくには、下記の環境が必要です。パソコンでご利用のお客様 Windows:Internet Explorer 11.0以上 / Chrome 最新版 / Firefox 最新版 / Microsoft Edge macOS:Safari 9.0以上 ※Internet Explorer 11.0以上をご利用の場合は、 「Internet Explorerの互換表示について」を参考に、互換表示の無効化をお試しください。タブレットでご利用のお客様 iOS 9以降、または、Android4.0以降のOSに標準搭載されたブラウザー ※日本国内版として発売されている端末でご利用ください。
Eamonn Keogh Distinguished Professor Computer Science & Engineering Department University of California - Riverside Riverside, CA 92521 Welcome to my home page. You may be interested in: My publications, my tutorials The Matrix Profile is the best idea in time series data mining in a decade The 2018 UCR Time Series Classification page has the largest collection of test datasets in the world. SAX i
3大ボトルネックを解消すれば終わり、ではない これまでの連載では、ディスクI/O、CPU、ネットワークI/Oの3つの観点で、大規模データを処理するときのボトルネックの傾向と改善点について説明しました。それらの改善策をすべてを実施すれば、もう何も心配する必要はないのでしょうか? 残念ながら、よかれと思って実施したチューニングがほかの箇所に影響を与える可能性があります。最終回となる今回は、その具体例を見ていきましょう。 データを圧縮した場合、CPUボトルネックが生じやすくなる 大規模データを扱うときは、データの総量を小さくしてストレージ装置のコストを削減するため、圧縮機能の利用を検討することが多いです。 データを圧縮する場合、RDBMSの機能を利用するのが一般的です。たとえばOracle Databaseには、以下のように何種類かの圧縮機能があります。 標準圧縮機能 OLTP圧縮機能(Adva
Your version of Internet Explorer is not longer supported. Please upgrade your browser.
平素よりイベントカレンダー+ログをご利用いただき、誠にありがとうございます。 イベントカレンダー+ログは「IT・製造業・ビジネス関係のイベント(セミナー・展示会・勉強会・コンテスト・Webイベントなど)を開催する企業・コミュニティが登録したイベント情報のポータルサイト」として約7年間運営をしてきました。これまでサービスを続けることができたのは、イベントカレンダー+ログのコンセプトに共感をいただき、適切なイベント情報をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、イベント情報の入手方法の多様化やイベント紹介サービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年6月30日(火)15:00をもちましてイベントカレンダー+ログのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知ら
告知が大分遅くなってしまいましたが、1/18の#CROSS2013で、 「今日から始まるデータサイエンティスト」というセッションをやらせて頂きます! http://www.cross-party.com/programs/?p=133 求めらるデータサイエンティストの人材像や、実際の活用について語るセッションにしたいと思っているので、興味のある方は是非ご参加下さい! 以下、概要です。 セッション概要 セッション1:『活躍するデータサイエンティストの人材像』 近年、データサイエンティストの必要性が熱く取り上げられているが、実際の現場で必要とされる人物像・必要スキルは明確ではない。 今回、実際に分析ビジネスを行う経営・マネジメント陣が、分析現場で必要とされるデータサイエンティストの人物像・必要スキルを徹底議論。明日からデータサイエンティストになりたい方はぜひご参加下さい。 セッション2:『今日
こんにちは!今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子(を目指してる)のあんちべ(23)です!よろしくお願いします!私は普段自社のWebサービスのCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました!でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね><;!そんな私に救いの手が!インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました!その名も"Incanter"です!なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く