タグ

データに関するyamataku13のブックマーク (44)

  • JAXA | 世界最高水準の全世界標高データ(30m版)の無償公開について

    宇宙航空研究開発機構(JAXA)は、陸域観測技術衛星「だいち」(ALOS)による観測画像を用いて整備した、全世界の陸地の起伏を水平方向30mの細かさで表現できる標高データセット(30mメッシュ版)の無償公開を開始します。今回、日を含む東アジア、東南アジア域から公開を開始し、順次、全世界の陸地(緯度82度以内)に拡大する予定です。(別紙1.参照) 今回、公開するデータセットは、全世界規模で整備される標高データセットとして現時点で世界最高精度を持つ「全世界デジタル3D地形データ」(別紙3.参照)の標高データセット(5mメッシュ版)をベースとして作成しており、30mメッシュ版としての高さ精度も世界最高水準です。データセットは、科学研究分野や教育、地理空間情報を活用した民間サービス等での利用が期待されています。(別紙2.参照)

    JAXA | 世界最高水準の全世界標高データ(30m版)の無償公開について
  • http://bdm.change-jp.com/?p=2761

    http://bdm.change-jp.com/?p=2761
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • 生活定点1992-2018|博報堂生活総研

    生活定点とは? 1992年から隔年で実施している生活者の意識調査です。同じ質問を繰り返し投げ掛け、その回答の変化を定点観測しています。

    生活定点1992-2018|博報堂生活総研
  • イミュータブルデータモデル(入門編)

    6. Step1 エンティティの抽出 発送担当者が受注リストをもとに、商品の在庫を確認し、在庫が あれば商品を発送する。 ① 要求仕様の「動詞」を抜き出しエンティティとする。 ② ①に関わる「名詞」を抜き出しエンティティとする。 ③ エンティティ間の関連に線を引く ④ 属性や候補キーも分かる範囲で書いておきます。 間違い! この段階で実装をプロパティファイルにするとか、Enum にするとか決め打ちでエンティティとして表さないのはや めましょう。 まず、はじめにエンティティを抽出します。

    イミュータブルデータモデル(入門編)
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • ASCII.jp:データ消失!あのとき、ファーストサーバになにが起こったか? (1/2)|データ消失事故から2年!ファーストサーバ、再生への第一歩

    今から2年前の2012年の6月20日、レンタルサーバー会社のファーストサーバは、大規模な顧客データの消失事故を引き起こした。あのときなにが起こったか? ファーストサーバのさまざまな部門の担当に、当時の状態を振り返ってもらった。 ファーストサーバは今も変わらずビジネスを展開している ファーストサーバの顧客データ消失事故に関するドキュメンタリーを書きたいと思った。事故の原因究明や責任の所在を明らかにするのではなく、当事者の話を積み上げていくような記事が書きたいと思った。 そして、今回ファーストサーバの全面的な協力により、事故当時から現場を統率してきた現代表取締役社長の村竹昌人氏をはじめ、営業、開発、運用、マーケティング、広報、サポート、管理など各部門の担当者に話を聞くことができた(以下、敬称略・役職は現職)。 事故から2年間の間、ファーストサーバはひたすら事故の影響を受けたユーザーへの対応と再

    ASCII.jp:データ消失!あのとき、ファーストサーバになにが起こったか? (1/2)|データ消失事故から2年!ファーストサーバ、再生への第一歩
  • LevelDB入門 (基本編) - from scratch

    さて、今回は比較的新しいデータストアであるLevelDBについてまとめてみました。 LevelDBは1年ほど前からNode.js界隈ではブームが来ていて、理由がよくわかっていなかったんですが、まとめている内に分かるかなと思ってまとめました。今回はNode.js無関係でLevelDBの基礎的なことだけ調査した結果をまとめてみました。 Node.jsで使ってみる話は後に回します。 LevelDBとは? key-value型のデータストアの一つです。 Googleの研究者である、Jeff DeanとSanjey Ghemawatが開発し、2011年に公表されました。C++で書かれており、多くのプログラミング言語でbindingsが書かれています。もちろん、JavaScript/Node.jsでも書かれています。 LevelDBGoogle のBigTableをベースにしたアーキテクチャを持

    LevelDB入門 (基本編) - from scratch
  • 文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)

    言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこでチュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less

    文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
  • 商用利用無料のイラスト素材サイト20 | Magicalog

    何かと便利なイラストカット。でも、人物や動物など、ちょっと凝ったものを自作するとなると時間も手間もかかりますよね。そんな時に便利なのがイラスト素材配布サイト。仕事でつかえる商用利用無料のイラスト素材サイトを集めてみました。 ※規約や利用条件、配布形式は変更される場合がありますので、ご利用の前に各サイトでご確認ください。 イラストAC 多種多様なイラスト。ユーザー投稿型。データはjpgとeps(epsデータがないイラストもあり)。要・ユーザー登録。 http://www.ac-illust.com/ シルエットAC シルエットイラスト。データはjpg・png・eps。3種類のデータをまとめてダウンロードすることもできる。要・ユーザー登録(上記「イラストAC」と共通アカウントでログイン可能)。 http://www.silhouette-ac.com/ Canva オンラインデザインツールの「

    商用利用無料のイラスト素材サイト20 | Magicalog
  • TechCrunch | Startup and Technology News

    With the advent of generative AI, AI applications are transforming and reshaping various industries and changing how people work. Software development is no exception. San Francisco- and Tokyo-based startup Autify…

    TechCrunch | Startup and Technology News
  • 実用段階に入ったNoSQLをおさらい 「Cassandra」の概要と導入手順・基本設定

    ビックデータとは はじめに、Cassandraが得意としているビックデータについて解説します。ビックデータという言葉が一般的に使われていますが、実際のところ何を指すのか、これまでとの違いは何かを説明します。 何に使われているのか 「ビックデータ」とは、通常の処理では処理不可能な膨大な蓄積データを指す言葉です。これまでは、処理することをあきらめていた膨大なデータを処理対象とすることで、新しい答えを見出すことを目指しています。しかも短時間で処理することで、タイムリーな活用を目指すのです。 これまでは、ばらばらに発生していたデータが、通信環境の発達でリアルタイムに収集することが可能になりました。個々のデータは小さくても、大量に集まれば膨大なデータです。せっかく集めた膨大データを活用するために時間が掛っては何もなりません。大量に集めたデータを短時間に効率よく処理して、処理結果を得られる必要がありま

    実用段階に入ったNoSQLをおさらい 「Cassandra」の概要と導入手順・基本設定
  • Dat·データ版Git。データを分散管理、解析 MOONGIFT

    GitHubは各自がリポジトリを持つ分散型ソースコード管理システムになっています。そして各自が差分を受け取ることでコラボレーションを実現しています。 同じような仕組みをデータについても行おうとしているのがDatです。まだはじまったばかりのプロジェクトではありますが非常に興味深いソフトウェアになります。 インストールはnpmを使って行いますので簡単に完了します。 $ npm install dat -g インストールが完了したら、最も基的な使い方を試してみます。 $ mkdir foo $ cd foo $ dat init これで初期化が終わります。Gitに似ていますね。次にデータを追加します。 # 一例 $ echo '{"hello": "world"}' | dat --json # CSVからも可能 $ cat some_csv.csv | dat --csv データの読み込みは

    Dat·データ版Git。データを分散管理、解析 MOONGIFT
  • さらば!データサイエンティスト

    2. 自己紹介  比戸将平(HIDO Shohei)  TwitterID: @sla  専門:データマイニング、機械学習  経歴:  2006-2012: IBM東京基礎研究所データ解析グループ  機械学習(特に異常検知)のアルゴリズム研究開発  お客様案件でデータ解析プロジェクトに従事  2012-: 株式会社プリファードインフラストラクチャー  大規模オンライン分散機械学習基盤Jubatusチームリーダー  2013-: Preferred Infrastructure America, Inc.  Chief Research Officer 2

    さらば!データサイエンティスト
  • Rで計量時系列分析:状態変化を伴うモデル(閾値モデル、平滑推移モデル、マルコフ転換モデル) - 渋谷駅前で働くデータサイエンティストのブログ

    前回の記事までは多変量時系列モデルとしてのVARモデルを扱ってきました。今回は一旦このシリーズの最終回ということで、元の単変量時系列モデルに戻って「状態変化を伴うモデル」を扱ってみようと思います。 ということでもはや毎回恒例になってますが、使用テキストはいつもの沖です。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る ただし今回の最後に出てくるマルコフ転換モデルは沖の説明では不足と思われるので、Hamiltonもあった方が良いです。 Time Series Analysis 作者: James D. Hamilton出版社/メーカー: Princeton Univ Pr発売日: 1994/01/11メ

    Rで計量時系列分析:状態変化を伴うモデル(閾値モデル、平滑推移モデル、マルコフ転換モデル) - 渋谷駅前で働くデータサイエンティストのブログ
  • オープンデータで運行情報を NHKニュース

    首都圏の鉄道各社と東京都は、電車が今、どこを走っているかを示すリアルタイムの運行データの公開に乗り出すことになりました。政府が進める「オープンデータ」の取り組みの一環で、新しいサービスの開発や災害時の活用につながると期待されます。 この取り組みに参加するのは、JR東日や東京メトロ、小田急電鉄など首都圏の鉄道12社と東京都交通局で、国土交通省や総務省、東京大学も協力します。 ここでは、これまで個別に管理され公開されていなかった、車やバスが今どこを走っているか示す位置や時刻のデータ、それに駅の混雑の情報などを、「オープンデータ」として公開していきます。 これによって、交通情報を使ったサービスを自由に開発できるようになり、例えば電車が走っている位置をスマートフォンの地図にリアルタイムで表示したり、目の不自由な人向けに運行情報を音声に変換して提供したりといった活用が期待されます。 さらに、災害な

  • Rで計量時系列分析:VARモデルから個々の時系列データ間の因果関係を推定する - 渋谷駅前で働くデータサイエンティストのブログ

    前回の記事ではVARモデルの基礎までを取り上げました。ということで、今回はVARモデルに基づいて異なる時系列同士の因果関係を推定する3つの手法について取り上げてみようと思います。 ということで毎回毎回しつこいですが、使用テキストはいつもの沖です。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者:竜義, 沖朝倉書店Amazon 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ&サンプルデータ {vars}をインストールして展開して下さい。なお、Granger因果のグラフ構造表現及び偏Granger因果は、実はそもそもRでは実装されていません。ここだけMatlabの話題になりますので、悪しからずご了承を。。。 それから今回のサンプルデータですが、また{vars}同梱のCanadaでは芸がないので違うデータを使うことにします。沖

    Rで計量時系列分析:VARモデルから個々の時系列データ間の因果関係を推定する - 渋谷駅前で働くデータサイエンティストのブログ
  • Big Data入門に見せかけたFluentd入門

    2013年7月5日、社内勉強会で使用した資料です(一部修正済み)。 ライセンスはクリエイティブ・コモンズ・ゼロとします。ご自由にお使い下さい。 ソースのPowerPointファイルはこちら => http://bit.ly/begining_fluentd_learning_big_data fluent-plugin-glusterfsはこちら => https://github.com/keithseahus/fluent-plugin-glusterfsRead less

    Big Data入門に見せかけたFluentd入門
  • 日本の全エンジニアに捧ぐ!現在公開されているAPI一覧【2013年版】 | Find Job ! Startup

    2013年のいま、API界隈が熱い! 今年に入り、官公庁の統計データやNHKの番組情報など、今までなかなか利用できなかったデータがAPIとして扱えるようになってきました。このエントリでは現在公開されているAPIを一覧でまとめます。いま使えるAPIはこれだけ読めば大丈夫。2013年の最新マッシュアップ事情をあますとこなく網羅します! HOT! API 総務省 次世代統計利用システム(国勢調査、人口推計、就業構造、企業統計、物価統計 etc.) NHK番組表(※未公開) 行政・自治体・公共サービス 郵便番号 郵便番号検索API郵便番号 → 住所) 郵便専門ネット(郵便番号 → 住所、郵便番号の簡易存在チェック) ぽすたん(郵便番号 → 住所、住所 → 郵便番号) IW3 PROJECT(郵便番号 → 住所、住所 → 郵便番号) 宇宙 Google+ JAXA PR(※現在一部の学生に限定公開

    日本の全エンジニアに捧ぐ!現在公開されているAPI一覧【2013年版】 | Find Job ! Startup
  • どんなデータでも(※)線形分離可能にしてしまう技術,Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner

    急に蒸し暑くなってきましたね.でぶちんなのでけっこうこたえます.タイトルはちょっと釣り気味.ビビっと来た方は是非論文に目を通してみてください:) 例によって,仲間内でやっている小さな勉強会で論文紹介をしてきましたので,そのご紹介です.ぼくの専門というか興味の中心は自然言語処理なので,ふだんはそっち方面を追っているのですが,勉強会では機械学習方面を中心にいろいろ読んでみてます. 今回は岡野原さんのこのツイートで興味を持った以下の論文を読ませていただきました.名前もかっこいい.ヴァニッシングコンポーネントアナリシス! ICML2013のbestpaper。データ中の集合(例えば画像中の8の字など)が0になるような生成多項式を求める(=集合のコンパクトな表現)効率的なアルゴリズムを提案し教師有学習時の特徴生成などに使える。すごい http://t.co/DedSoyLaJR — 岡野原 大輔 (