タグ

データに関するy-idのブックマーク (18)

  • オープンデータ取得先まとめ - Qiita

    2018/1/1時点で利用可能な、オープンデータの主要取得先を記載します。 1. 世界中の国や都市の情報 EUとイギリス Public Data EU http://publicdata.eu Open Data Europe http://data.europa.eu/euodp/en/home UK Government Data https://data.gov.uk アフリカ Africa Open Data https://africaopendata.org Code for South Africa http://code4sa.org Code for Africa https://codeforafrica.org アジア Open Cities Project http://www.opencitiesproject.org Open Nepal http://data

    オープンデータ取得先まとめ - Qiita
  • PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita

    Pandasのグラフ描画機能 この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。 この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、 データの読み込み、保持 データの加工 データの集計 データの可視化 というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能について この記事ではPandasのデータハンドリングなどに関わる機能は説明しません。 そちらにも興味がある方は下記の記事などを

    PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita
  • なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita

    rex = /ごにょごにょ/ p "東京都文京区後楽1丁目3−61".match(rex).captures #=> ["東京都", "文京区", "後楽1丁目3−61"] みたいなやつ。なるべく短く。 実用性? そんなもの、うちにはないよ。 TL;DR 「読むのめんどくさい」という人用に最初に最終結果を置いておきます (...??[都道府県])((?:旭川|伊達|石狩|盛岡|奥州|田村|南相馬|那須塩原|東村山|武蔵村山|羽村|十日町|上越|富山|野々市|大町|蒲郡|四日市|姫路|大和郡山|廿日市|下松|岩国|田川|大村)市|.+?郡(?:玉村|大町|.+?)[町村]|.+?市.+?区|.+?[市区町村])(.+) あまり厳密ではないのでちゃんとしたとこでは使わないほうがいいです 住所データを用意する 郵便局からデータをダウンロードしておく。一ヶ月毎に更新されている。 → 郵便番号データ

    なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita
    y-id
    y-id 2016/01/27
    最初、野々市や四日市はまだわかるけどなぜ旭川が例外?って思ってたらそういうことか。
  • 中央大、メモリ上のデータを指定した時点で自動的に破壊する技術を開発

    中央大学は6月18日、デジタルデータの「忘れられる権利」を実現できるメモリシステム「Privacy-protection Solid-State Storage(PP-SSS)System」を開発したと発表した。 同成果は、同大 理工学部の竹内健 教授らによるもの。詳細は6月15日から19日にかけて京都で開催されている「IEEE Symposium on VLSI Circuits」にて発表された。 同システムは、SNSなどに書き込んだデータの寿命をあらかじめ設定しておくことで、そのタイミングが訪れた際には自動的にデータが壊し、再現不能にするというもの。具体的にはデータを記録しているフラッシュメモリにおいて、リーク電流によるデータ破壊で生じるエラー確率を高い精度で予測できるという特徴を利用することで、データをメモリに書き込む時点で寿命に応じた所定の数のエラーを意図的に注入し、誤り訂正をでき

    中央大、メモリ上のデータを指定した時点で自動的に破壊する技術を開発
    y-id
    y-id 2015/06/18
    「なおこのテープは自動的に消滅する」的な物を期待した。
  • 政府、助成論文・データを原則公開 研究活性化を期待 - 日本経済新聞

    政府は公的研究費による研究成果の論文やその研究データを論文掲載後に原則公開とする方針を固めた。論文や研究データを公開し他の研究者や企業などが見られるようにすることで研究を活発にする「オープンサイエンス」の国際的な動きに合わせる。データの再利用などで研究を促し、イノベーションの創出につなげる。内閣府の検討会で議論を進めており、3月中にまとめる。その後、各省庁や研究費の助成機関である科学技術振興機

    政府、助成論文・データを原則公開 研究活性化を期待 - 日本経済新聞
  • Rで学ぶミニミニビッグデータ分析入門-第1回

    Rで学んでいく統計やデータマイニングの入門スライドです。 第3回は「3つ以上のデータ群を調べる」がテーマで、これまでの基統計量や標準偏差、箱ひげ図を利用して3つ以上のデータを比べていきます == 第2回の資料は下記にあがっています。第2回は「2つののデータ群を調べる」がテーマで、基準化、共分散、相関係数、散布図などを扱いました http://www.slideshare.net/narupeko/r1-21389468

    Rで学ぶミニミニビッグデータ分析入門-第1回
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
    y-id
    y-id 2014/09/15
    ほんとに助かった。今までエクセルのマクロとかpythonでちまちまやってた作業が一瞬で終わるようになった。
  • 公益社団法人日本地震学会 - 解説

    年周地殻変動と積雪荷重 国立天文台地球回転研究系 日置 幸介 国土地理院による汎地球測位システム(GPS)の連続観測網GEONETは,わが国の地殻変動の様々な姿を明らかにしてきました.これらGPS観測点の座標には,静かに進行する地震間地殻変動に加え,振幅数mmの明瞭な季節変化成分がしばしば見られます.これらの季節変動成分の位相が全国的に揃っており,かつ振幅が系統的に分布することがMurakami and Miyazaki(2001)によって見出されました.彼らは石川県の小松(図1)を固定し,季節変動成分の向きが島弧の走向に直交し(つまり海溝でのプレート収束方向に一致),かつその振幅が地震間変動の大きさに比例していることを示しました.これは海溝で沈み込むプレートの速度,あるいは境界でのプレートの結合が季節変化しているという驚くべき可能性を示唆します.これはわが国における地震発生の季節性との関

    公益社団法人日本地震学会 - 解説
  • 櫻田潤 | インフォグラフィック・エディター

    ビジュアルの力で世界を丸くする。 地球の形状が「丸い」のは、そこで暮らす僕たちにひとつの「ビジョン」を指し示しています。地球の形と同じように、世界で起こっていることのすべてが丸く収まっていれば良いのですが、現実は違います。 大小いろいろな規模の摩擦がいたるところに発生し、繰り返されます。その解決に必要なのは、お互いの「考え」や「価値観」「立場」、「状況」「状態」を示し、認め合うことです。そのために、「ビジュアル」の力を活用していきます。

    櫻田潤 | インフォグラフィック・エディター
  • Pythonの数値計算ライブラリ NumPy入門

    Scientific Computing Tools For Python — Numpy NumPy は Pythonプログラミング言語の拡張モジュールであり、大規模な多次元配列や行列のサポート、これらを操作するための大規模な高水準の数学関数ライブラリを提供する。(via Wikipedia) これまで知識があいまいだったNumPyについて、もう一度おさらいしたいと思います。NumPyはSciPyと併せて科学技術計算でよく利用されています。また、高速に行列演算ができるのでOpenCV(コンピュータビジョンライブラリ)でもNumPyを利用したPythonインタフェースが提供されるようになりました。 OpenCVPythonバインディングについては去年のエントリーでも取り上げていますので参考までに。 * さくらVPSOpenCVをインストールしてPythonから使う [2017/04/2

  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 懐かしの「y=ax+b」でアイスコーヒーの注文数を予測しよう 散布図、分析ツールで求める単回帰式

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    懐かしの「y=ax+b」でアイスコーヒーの注文数を予測しよう 散布図、分析ツールで求める単回帰式
  • [保存版] 最強の企画書の作り方と資料作成サービス完全まとめ

    企画書作りに役立つエントリーやサービスを一通り見て 「これだけ抑えておけば完璧!」と思う点を保存版としてまとめました! 優れた企画書を作るために 1,最強の企画書の作り方を学べる記事5選 2,企画書作りに使える最強の資料作成サービス の2つに分けて徹底的にまとめましたので 仕事で資料をよく作る人はぜひご覧くださいませ! 企画書を作る前に絶対読むべきエントリーBEST5 企画書を作る上で絶対に役立つ記事をベスト5形式でまとめました。 どの記事もかなり勉強になる記事なので一度だけでもご覧ください。 第1位 シンプルイズベストな1枚企画書を作ろう! これぞ完璧企画書――「1枚企画書」パターン実例3題 「問題+解決=問題解決型」「背景+課題=課題提起型」のように 企画を具体化し、分かりやすく1枚に集約した企画書の作り方が秀逸。 第2位 上司がOKを出す企画書を作る方法! “通る企画書”作りの基

    [保存版] 最強の企画書の作り方と資料作成サービス完全まとめ
  • Excelの「条件付き書式」はすばらしい - 結城浩のはてなブログ

    日付や数値がたくさん入っているデータがあるとします。 そのデータについて「何かわからないかな?」という簡単な分析をしようと思ったとき、Excelの「条件付き書式」が非常に手軽で便利です。 条件付き書式を使うと、セルの数値の「相対的な大きさ」をセルの中に「グラフ」のように表示したり、「相対的な大きさ」を「色の濃度」で表現したりという指定ができるのです。 ↓たとえば、このような感じになります(このデータは適当に作りました)。 このようにすると、Excelの表そのものが、データの傾向や特異な点を視覚的に教えてくれるようで、なかなか楽しくなります。 【旧商品】Microsoft Office Excel 2010 通常版 [パッケージ] 出版社/メーカー: マイクロソフト発売日: 2010/06/17メディア: DVD-ROM購入: 9人 クリック: 136回この商品を含むブログ (12件) を見

    Excelの「条件付き書式」はすばらしい - 結城浩のはてなブログ
  • 第三回 「IF関数」の空白処理を知らないとExcelの便利さ半減!?

    無駄を省けるはずのExcelの便利な機能も、その活かし方を知らなければ、逆に手間とリスクが増えてしまうという怖いお話です。 請求書や納品書を作成するとき、あらかじめ金額の欄に「=単価×数量」という数式を入力しておくのが一般的です。 しかし、その式だけを入力していると、単価や数量を入力していない列に「エラー値」が表示されてしまいます。 こうなると、いちいちエラー値を消す作業をしなければならないので、無駄な作業が増えてしまいます。 Excel関数の大御所「IF関数」を使った空白処理を行なっておけば、こんな問題は簡単に回避できます。 「IF関数」を使った空白処理をしていないと・・・ 下の例のように、「金額」のセルに「単価×数量」の結果を表示させるように数式を入力しただけのセルをフィルコピーしておいた状態では、データが入力されていない行の「金額」のセルにエラー値が出てしまいます。 しかも、右図のよ

    第三回 「IF関数」の空白処理を知らないとExcelの便利さ半減!?
  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

    y-id
    y-id 2011/06/16
    いろいろ遊べそう。
  • 【How To】消えたデータを取り戻したい、しかも(ほぼ)無料で簡単に!

    【How To】消えたデータを取り戻したい、しかも(ほぼ)無料で簡単に!2011.01.28 10:0013,689 福田ミホ うっかりDeleteボタンを押してしまったり、ハードディスクドライブのエラーが起きたり、パソコンを使っているとときどき、データ消失事件が発生します。今回は、そんな事件に対処する方法をご紹介します。 データ復旧ソフトは、アンチウイルスソフトほどメジャーな存在ではありません。アンチウイルスソフトはたいていパソコンにバンドルされていますが、データ復旧ソフトにはあまり関心が払われていないようです。マイクロソフトはアンチスパイウェアとしてWindows Defenderを提供していますが、面白いことにデータ復旧関連には手を出していません。Windowsの回復コンソールがあるにはありますが、あれはWindowsから問題のあるドライブを読み込めなければ役に立ちません。 そんなわ

    【How To】消えたデータを取り戻したい、しかも(ほぼ)無料で簡単に!
  • 日本人のお金の使い方がまるわかりになる全国消費者実態調査データ | 初代編集長ブログ―安田英久

    今日は、世の中の人がどんなお金の使い方をしているのかを全国で調査したデータを紹介します。市場調査を行うにあたって参考になるかなり詳細なデータを入手できます。しかも無料で。 「30代の男性は書籍や雑誌に1か月あたり何円使っているのか」「ケータイの通信費は、年齢層でどれくらい違うのか」「緑茶と紅茶とコーヒーと、それぞれいくらぐらい使っているのか」「やシャツや下着に使っているお金は?」「CD・DVDやゲームにはどれくらいお金を使っているのか」「映画や遊園地や温泉にはみんなどれくらい行っているのか」こんなデータがあればいいと思いませんか? それがあるのです。 そのデータとは、総務省統計局が行っている「全国消費実態調査」。 平成21年全国消費実態調査(統計局)全国消費実態調査とは、国民生活の実態について、家計の収支や貯蓄・負債、耐久消費財、住宅・宅地などの家計資産を総合的に調査し、世帯の消費・所得

    日本人のお金の使い方がまるわかりになる全国消費者実態調査データ | 初代編集長ブログ―安田英久
    y-id
    y-id 2010/10/06
    今は使いどころがないけど、こんなモノがあるってことだけでも覚えとくためにブクマ。
  • 1