NTTドコモは6日、携帯電話利用者の位置情報などが分かるビッグデータを10月に企業向けに販売すると発表した。 携帯電話基地局が、エリア内の携帯電話の位置情報などを自動的に把握している特性を生かし、特定エリアの時間帯ごとの人口の変化などのデータを販売する予定だ。 基地局が収集するデータには、位置情報だけでなく契約者の年齢や性別、住所も含まれる。7月にJR東日本がICカード乗車券「Suica(スイカ)」の乗降履歴を利用者に無断で企業に販売していた問題が発覚したことから、ドコモは、携帯電話番号や生年月日を除くなどして個人の識別ができないようにする。 さらに、契約者が申請すれば、個人データをデータとして利用できないようにする。 ドコモは、企業などにデータを販売する際、顧客の要望に応じたデータを子会社の調査会社に提供し、データをもとに分析したリポートを渡す。
首都圏の鉄道各社と東京都は、電車が今、どこを走っているかを示すリアルタイムの運行データの公開に乗り出すことになりました。政府が進める「オープンデータ」の取り組みの一環で、新しいサービスの開発や災害時の活用につながると期待されます。 この取り組みに参加するのは、JR東日本や東京メトロ、小田急電鉄など首都圏の鉄道12社と東京都交通局で、国土交通省や総務省、東京大学も協力します。 ここでは、これまで個別に管理され公開されていなかった、車やバスが今どこを走っているか示す位置や時刻のデータ、それに駅の混雑の情報などを、「オープンデータ」として公開していきます。 これによって、交通情報を使ったサービスを自由に開発できるようになり、例えば電車が走っている位置をスマートフォンの地図にリアルタイムで表示したり、目の不自由な人向けに運行情報を音声に変換して提供したりといった活用が期待されます。 さらに、災害な
8月2日夜の「天空の城ラピュタ」地上波テレビ放送で、恒例となっているTwitterでの“バルス祭り”が勃発。その直後から「ツイート速度」に関するデマツイートが出回るなど、日本ではバルス祭りの成果に対する関心が高まった。 翌日、土曜日だったにもかかわらずTwitter Japan広報は集計数字を公式ツイートで発表。従来のTPS(秒間ツイート)の最高記録である2013年のあけおめツイート3万3388を大幅に上回る14万3199TPSという驚異的な記録更新となった。同社広報は、正式発表が翌週持ち越しにならぬよう、“花金”で忙しい米国本社のエンジニアに協力してもらったと言う。 TPSの集計は、米国本社の限られたエンジニアが担当する。そのため日本の広報は“バルス祭り”の約2週間前には祭りの予定をエンジニアらに連絡し、TPSの集計を依頼した。前回のバルス祭りで急激に負荷が増えたことを覚えていたエンジニ
大手ITベンダーの研究所でビッグデータ活用に携わった経験を生かし、データサイエンティストに関する情報を発信する株式会社プリファードインフラストラクチャーの比戸将平氏に話を聞いた。 ―前職のIBM東京基礎研究所でデータ解析関連のプロジェクトを担当された経験を活かし、データサイエンティストに関する講演をされています。データ分析の現場を生々しく描かれていますね。 昨年ごろから、データサイエンティストという言葉を耳にする機会が増えました。興味を持って調べてみたところ、かつて私が担当していた業務そのものでした。当時、私は機械学習やデータマイニングを使って、顧客をセグメンテーションしたり、機械が壊れる前に兆候を検知したりする仕組みを構築していました。それならば、データサイエンティストと呼ばれる人材の実態や、悩みどころをシェアできるのではないかと考えたのです。 昨今、データサイエンティストには、期待が集
JR東日本は7月25日、社外提供するSuica利用データの取り扱いについて公表した。日立製作所が同データを利用して行う解析サービスについて、プライバシー面の不安や「事前の説明・同意が不足しているのでは」といった批判の声が上がっていたのを受けたもので、JR東日本は「大変なご心配をおかけした」と謝罪。希望者はデータ提供から除外できるようにする。 JR東日本によると、日立に提供するのは「Suicaでの乗降駅、利用日時、鉄道利用額、生年月、性別およびSuicaID番号を他の形式に変換した識別番号」からなるSuica利用データ。 SuicaID番号はSuicaに割り振られたユニークな番号で、Suica裏面の「JE」から始まる文字列。同社によると、提供データからは元のSuicaID番号に復元できないようにしており、利用者の氏名や連絡先とひも付けることができまないという。また特定のSuicaのデータを長
アカデミアでもビジネスでも統計解析のニーズは高くて、 データを分析して欲しいというような依頼は結構くる。 しかし、分析の対価としてどこまで給料をもらうべきなのか、 というのはなかなか難しい問題だ。 完全にビジネスとして外注して、博士レベルの統計屋に 分析をさせると、単価は1時間で100ドル前後のようだ。 以前に、コンサルティング会社が時給75ドルでそういった求人を 出していたから、マージンなどを考えれば大体そんなものなのだろう。 継続的に分析案件が発生するのであれば、 常勤で統計屋を雇えばもっと安く済む。 私も、大学院生の時は、医学部でデータの分析をして、 生活費や給料、健康保険料を払ってもらっていた。 一番厄介なのは、依頼者が案件をあくまで「共同研究」だと考えている場合である。 もちろん雑誌や学会等に投稿することになれば、 分析者として共著者に名前を入れてもらうことになるが、 それが統計
政府や自治体が保有するデータを誰もが自由に利用できるようにすることで、行政の効率化や新しい産業の育成を図る「オープンデータ」を進めるため、経済産業省は、「住所」や「日付」などデータに使われる言葉の意味や使い方を標準化して、データ同士のやりとりを効率化する取り組みを進めることになりました。 オープンデータとは、政府や自治体が保有する膨大なデータについて、コンピューターを使って誰もが自由に利用したり加工したりできる形でインターネット上に公開することで、行政の効率化や新しい産業の育成を図るもので、政府の成長戦略の1つに位置づけられています。 しかし、例えば、データによって「日付」の記入方法に西暦を使ったり和暦を使ったり、「世帯数」を表すときに1人暮らしを含んだり含まなかったりするなど、データに使われる言葉の意味や使い方が統一されていないケースが多いため、複数のデータを組み合わせて使う場合に時間が
次世代統計利用システムは、統計におけるオープンデータの高度化に向けて、総務省統計局と協力し、独立行政法人統計センターが試行提供するシステムです。次世代統計利用システムは、統計におけるオープンデータの高度化に向けて、総務省統計局と協力し、独立行政法人統計センターが試行提供するシステムです。
ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事本文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事本文データ 記事ID,記事本文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス本文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮
ニコニコ動画をご利用いただきありがとうございます。 去る4月末、第四回ニコニコ学会β開催を記念し、国立情報学研究所 情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ動画のメタデータ「ニコニコデータセット」を公開しました。 データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトル、説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント本文、投稿日時、コメント位置等)約300GBです。動画データ本体および個人を特定するユーザIDは含まれません。原則「すでに公開されているデータ」をとりまとめており、非公開のデータは含みません。 本データが公開されることにより、スクレイピング等を行わなくともニコニコ動画に関する研究が行えるようになります。 また、学術機関に所属する研究者が検証可能な形で公式に研究発表しやすくなるものと考えられ
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く