ビッグデータからの科学的発見のためには、正確な検定値(P値)の算出が必要。 超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。 物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。 JST 課題達成型基礎研究の一環として、産業技術総合研究所 生命情報工学研究センターの津田 宏治 主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学 大学院情報理工学研究科 計算工学専攻の瀬々 潤 准教授、理化学研究所 統合生命医科学研究センターの岡田 眞里子 チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。 自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる
第4回サイバーエージェントMarketing & Analytics勉強会 http://atnd.org/event/camark04 の講演スライドです。未だにslideshareの使い方が分からなくて、アップロードしたら勝手にフォントが明朝体に変わってしまったり位置がずれてしまったり右側が切れてしまったり。。。表示がおかしかったりダサかったりするのはそのせいです。ごめんなさい。
取引先とのメールで話題爆発(というか面白がり)していた。移動中なので、軽く触れる。先月の記事なんだね。箇条書きにするお。 靴屋とデータマイニングと季節外れの冬物衣料 http://d.hatena.ne.jp/AntiBayesian/20130423 前提: 内容をすべて否定するものではない。そういう見解も成立するし、ためにする議論ではない。 その1: 「データマイニングに必要なのは意外性だ!」 そもそも意外とか仮説の段階で言っているとしたら、それは使えないデータ担当者だ。クビにするべき。 その2: これを利用して小売店や流通業界はデータマイニングをした。どんな意外性のある結果が出てきたと思う?例えばこんなものだった。「冬は鍋の検索回数が多い」 なんたる自明! 小売や流通は常に売り場面積や仕入れ対販売という係数に支配されていて、いつまで鍋が検索されて需要があるかというようなロングテール的
一個前のエントリーで、こういう反響があったので軽く触れておきたい。 [引用]inamenai 元記事は物流とか在庫とかの話がしたいわけじゃないと思うんだがなんでわざわざそういう回収の仕方をするんだろう。 ビッグデータもバズワードになったんだなあ http://kirik.tea-nifty.com/diary/2013/05/post-0776.html [元記事]靴屋とデータマイニングと季節外れの冬物衣料 http://d.hatena.ne.jp/AntiBayesian/20130423 別に元記事すべてを否定するつもりはないことは、先のエントリーでも書いた。 ビッグデータであれデータマイニングであれ、もちろんマーケティングの面で「より多く売る」アプローチをとりがちな情シス部門やコンサルタントが多いのも事実。ただ、元記事が何度も書いていたように「意外性」や「需要」「顧客満足」といった
「NIIの研究者が語る!ソフトウェア科学とAIの最前線」蓮尾 一郎 ソフトウェアの「数学」とは何か? バグのないシステムを目指す研究の意義や、AI時代における新たな挑戦、理論と応用をつなぐ研究の面白さなど。 研究者の視点からざっくばらんに語ってもらいました。 res.json()), fetch('/today/_json/top_entries.json').then(res => res.json()), fetch('/news/_json/top_entries.json').then(res => res.json()) ]) .then(([data1, data2, data3]) => { const now = new Date(); // 掲載期間フィルタリング関数 const filterByDate = (items) => { return (items || [
国立情報学研究所が(株)ドワンゴから提供を受けて研究者に提供しているデータセットです。 2024/11/25 更新 データ概要 ニコニコ動画コメント等データ 「ニコニコ動画」にサービス開始当初から2021年9月30日までに投稿された約2,000万件の動画のメタデータと,それに対する約41億件のコメントデータです。動画データ本体は含まれません。また,ユーザIDは削除されています。 動画メタデータ タイトル,説明文,タグ,投稿日時,再生数,コメント数などのデータです。 JSON形式のファイルで,1,000ファイル(1ファイルあたり約2万動画分),ファイルサイズは合計で約15GBです。 コメントデータ コメント本文,投稿日時,書き込み再生位置などのデータです。 JSON形式のファイルで,1つの動画につき1ファイルとなっています。 圧縮ファイルで約86GBあり,展開すると合計で約573GBとなりま
ニコニコ動画をご利用いただきありがとうございます。 去る4月末、第四回ニコニコ学会β開催を記念し、国立情報学研究所 情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ動画のメタデータ「ニコニコデータセット」を公開しました。 データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトル、説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント本文、投稿日時、コメント位置等)約300GBです。動画データ本体および個人を特定するユーザIDは含まれません。原則「すでに公開されているデータ」をとりまとめており、非公開のデータは含みません。 本データが公開されることにより、スクレイピング等を行わなくともニコニコ動画に関する研究が行えるようになります。 また、学術機関に所属する研究者が検証可能な形で公式に研究発表しやすくなるものと考えられ
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。
広陵高校では今年1月に「不適切事案」があった。2年生が1年生に暴力を振るったと言う。 今春、MLBから復帰してソフトバンクに入団した上沢直之については、FA年限前にポスティングシステムでMLBに移籍したがマイナー契約となり、1年で帰って来た。依然としてFAまえだったが、日本ハムではなくソフトバンクに入団した。 日本ハムもソフトバンクも一切コメントし 防御率1点台と言うと、素晴らしい投手という印象がある。しかし、投手の評価はあくまで相対的だ。投高のシーズンは防御率が良くなるし、打高のシーズンは当然悪化する。 3割打者消滅の背景に「投高」の進行があるのは間違いないが「3割打者0」の原因と指摘するには、大きすぎるように思っている。ただ、調べてみて、ちょっと異常な水域に入っていると思う。 セ・リーグはここまで「9人制野球の伝統」を守ってきたのだそうな。確かに高校野球、東京六大学と続く正統派の野球リ
はじめに 今回紹介する本は玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れている本をいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめた本ですが、統計学がどういった分野に使われているの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く