今日の日本社会において、携帯電話は無くてはならない存在となりつつありますが、5600万人以上という圧倒的なユーザーを抱えているNTTドコモが、「どのような層が、どのような時間に、どのような場所にいるのか」を把握することで「社会」が見えてくる「モバイル空間統計」についての発表を行いました。 「人の動きを把握できる」ということは、防災や産業などのあらゆる面で社会にとって非常に大きな意味を持ちますが、実際に全国の人口分布や、特定の場所における人口構成、移動人口などをイメージ化したデモンストレーションが実施され、「モバイル空間統計」がどのようなものであるのかが分かりやすく解説されています。 詳細は以下から。 本日都内で報道陣向けに発表会が行われました。 NTTドコモ先進技術研究所 所長 村瀬淳氏 NTTドコモ先進技術研究所 ネットワークシステム研究グループ 主幹研究員 岡島一郎氏 NTTドコモ 経
NTTドコモは,モバイル・インフラの運用で発生する大量データの分析「ペタマイニング」を進めている。「モバイル事業を通じた社会貢献」(山田隆持社長)を標榜するドコモによる新しい取り組みだ。2009年7月には,同社が「社会の頭脳」と呼ぶ,大規模なマイニング用設備を構築した。 NTTドコモが「ペタマイニング」と呼ぶ研究開発プロジェクトを開始したのは2008年春のこと。同プロジェクトでは,モバイル・インフラの運用に伴って発生する大量のデータを活用し,時間ごとの人口の変化などを推定。分析したデータを,都市計画の立案や交通サービスの改良といった社会の様々な課題解決に役立てることを目指している(図1)。扱うデータ量がペタバイト(テラバイトの1000倍)に上ることから,「ペタマイニング」と名付けた。
連載2回目は、ネット時代の要請を受けて、データマイニングを取り巻くツール環境がどのように変化(進化)をしているかを、ご紹介させていただきます。 現在、企業内のDWH(データウェアハウス≒巨大なDB)に蓄積された膨大なデータは、例えればダムに貯められた水です。ただ水門を開け閉めするだけでは、膨大な水量(データ量)が流出してしまい、現実的に意思決定の材料としては機能しません。まさに消防ホースから水を飲むようなもので、受け手の処理能力を軽く超えてしまうのです。そこで、処理が可能な適切な量・質に情報を絞り込んで取り出す「蛇口」が必要となり、その機能がデータマイニングに求められています。 しかし、現実問題として、そのマイニング自体が非常に高度で職人的な作業であるため、属人的な制約をうけることになります。つまり、分析者の能力と人数に限界があるため、結果として処理できる件数とデータ量にもすぐに限界が来て
「おむつを買った人はビールを買う傾向がある」という米国におけるマーケットバスケット分析(注1)の事例。1990年代半ばから2000年代初めにかけてメディアや講演などでよく語られ、データマイニング(注2)という言葉と概念を一躍有名にした。 一般に「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」という内容で知られる。 直接的には、1992年12月23日の「ウォールストリートジャーナル」に掲載された「Supercomputer Manage Holiday Stock」という記事が発端だとされる。この記事では「米国中西部の都市でこの店は、ある
2007/08/21 アイ・ティ・アール(ITR)は8月21日、国内ビジネス・インテリジェンス市場の動向を調査した「ITR Market View:BI市場2007」を発売した。2006年度の国内BI市場は出荷金額ベースで前年度比10.5%増の157億5000万円。コンタクトセンターに寄せられる顧客からの要望や、ブログ、SNSのデータ分析が増えたことで、テキスト・マイニング市場が急成長を記録した。 2006年度のテキスト・マイニング市場は前年比約24%増の11億5000万円。コンタクトセンターやブログ、SNSで生成される大量のテキストデータを分析するニーズが高まっているとITRは分析している。 テキスト・マイニングツールのベンダ別市場シェア(出荷金額ベース)は野村総合研究所が60%でトップ。2位以下は数理システム(7.8%)、クオリカ(7.8%)、エス・ピー・エス・エス(5.4%)の順とな
Web内容マイニング (NECインターネットシステム研究所 楠村幸貴) Web上には膨大の情報が存在している.そこでWebを巨大な知識ベースと捉え,Webから有用な知識を取り出す情報抽出技術の研究が行われている.この技術はWeb内容マイニングとも呼ばれており, 複数のサイトをまとめて提示する情報統合システム[1][2]や,ブログからの評判抽出システム[3][4][5],コミュニティサイトからの人間関係の抽出システム[6]など,近年多くの研究が行われているトピックとなっている.そこで本ブックマークではこれらのWeb内容マイニング技術を取り上げたい. [1] TSIMMIS, http://infolab.stanford.edu/tsimmis/tsimmis.html [2] ARANEUS, http://www.dia.uniroma3.it/Araneus/ [3] BlogWa
テキストマイニングを使う技術/作る技術 2006-12-28-3 [書評・感想] テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。 全編具体的で分かりやすい。 ■那須川哲哉 / テキストマイニングを使う技術/作る技術 ―基礎技術と適用事例から導く本質と活用法 テキストマイニングというと、ブログや掲示板での特定の何かの評判情報 検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって 来ている。 この本はテキストマイニングを支える技術、事例紹介、技術以外の側面 (運用など)はもちろん、「テキストマイニングとは何か」ということ についても初心者にも分かりやすいよう、かなり丁寧に解説されている。 一番重要なポイントが最初の方で述べられてる。これ、大切。 [...]テキストマイニングというものは、あくまで人間が膨大な文書データ を有効活用するた
バイトの人たちとアルゴリズムの話となる。 グラフマイニング。特にGastonについて。 gspanより10倍ぐらい速いらしい。このTech Reportが詳しい 基本的な方針はグラフマイニングで候補部分グラフを少しずつ大きくしていくのだが、そこでもし候補部分グラフがパスや木ならば閉路を含むような複雑なグラフの相同性チェックとかはいらないので簡単なチェックですませてしまおうというQuick Startの方針 skiplistとその拡張について。skiplistはAVLや赤黒木などの平衡木の難しい実装を使わなくても、ランダマイズドアルゴリズムを使うと簡単な実装で平衡木と同じようなことができますよという素敵な話。この方針は木だけでなくほかのいろいろなアルゴリズムに使える。実際にグラフとかへの拡張がすでにやられている。 Cache-Oblivious Algorithmはこの場で初めて聞いた。Re
ブログの過去データの活性化について (1) 2005-04-24-1 [Blog] 私は、「普段からつけている電子メモ」自体を Blog に変換してしまう ツール chalow を使っているので、このブログは自分用データベース (メモDB)という側面が非常に大きいです。そうなると、やはり古い データが埋もれてしまうのはもったいなく感じます。 データの活性化について考える必要があります。 ここで私の言う「活性化」とは「古い記事を埋もれさせないで適当な頻度 でまんべんなく人目に(自分の目にも)触れるようにする」ことです。 何かひらめきのきっかけにしたいというのが目的です。 このような意図での活性化手段として Randam Jump というものを用意し てあります[2005-02-24-3][2004-11-30-5]。過去記事をランダムに表示す るというものです。 ラン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く