タグ

グラフに関するmkawanoのブックマーク (49)

  • Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas

    データクリーニングが繁雑な作業であることを示すために、政府の統計データから日の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。 はじめに データクリーニングは、データ分析の際に非常に重要なプロセスの1つであるが、データ分析の教科書では必ずしも十分に扱われていない。そこで、現実のデータクリーニングがどのように行われるかについて、一事例を紹介したいと思う。具体的には、統計処理に適したプログラミング言語のRを用いて、粗悪なデータから簡単な折れ線グラフが作成できる程度のきれいなデータにするまでのデータクリーニングを実施していく。 記事の対象読者 記事は、既存のデータに対して自らの手でデータ分析を実施している人、または実施しようと考えている人を主な対象にしている。データ分析の際にど

    Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas
  • 【統計グラフ】Excelで簡単に箱ひげ図を作る方法(Excel 2016~)

    Excel 2016 から「箱ひげ図」を簡単に作る機能が追加されました。 従来、Excelで箱ひげ図を作るには、中間データを計算してから、棒グラフと誤差範囲機能を駆使して箱ひげ図のように見せるテクニックや、統計アドインを使うなどの方法しかありませんでした。 未だに「Excel 箱ひげ図」で検索するとExcel 2013以前の古い方法が検索結果上位に出てくるのですが、既にExcel 2016を利用中であれば、もっと簡単に箱ひげ図が作れます。 今回は、そのExcel 2016での箱ひげ図の簡単な作り方と、ちょっと分かりにくい設定の意味について紹介します。 目次 1. 箱ひげ図について2. 箱ひげ図の作り方3. おすすめ設定:外れ値や平均値を表示する4. おすすめ設定:凡例を表示する5. おすすめ設定:重要な数値を表示する6. ちょっと難しい設定:「四分位数計算」について7. まとめ8. ヒスト

    【統計グラフ】Excelで簡単に箱ひげ図を作る方法(Excel 2016~)
  • いろいろな確率分布のパラメータをいじくるアプリ @ksmzn #Shiny

    いろいろな確率分布のカタチを見ることができるWebアプリです。 パラメータをいじくって、確率分布のカタチがどのように変わるのか観察しましょう。 上部メニュー からお好きな確率分布を選んでください。 このアプリはR言語のWebアプリフレームワークであるShiny で、@ksmznが作りました。 ご指摘や、追加すべき確率分布などがありましたらTwitterで教えてくださると助かります。 また、全てのコードはGitHubにもおいてありますので、拙いコードでよろしければ参考にしてください。 時間があれば、グラフをggplot2ではなく、D3.jsなどを使ったインタラクティブなものにしたいですね。 参考文献 このアプリを使う際に参考にしたページは以下です。 特に、まだまだShinyの日語情報が少ないなか、 @hoxo_mさんの記事やコードはとても参考になりました。 @hoxo_mさん、ありがとうご

  • 互助会の構造をGephiで可視化してみる - ゆとりずむ

    こんにちは、らくからちゃです。 以前ぶらっとインターネットをぶらぶらしていたら、こんな記事を見つけました。 『パナマ文書』の問題については、いいなー偉い人は沢山お金持っててさー、と遠い世界の話にしか感じられませんでしたが、解析手法については中々興味深いお話でした。 今回の流出事件では、2.6TBもの大量のデジタルデータが流出されたと言われています。しかし、このデータの中から、資金の流れの関連性を分析していくのは、人力では不可能に近い作業です。そこで今回力を発揮したのが『グラフ解析』という手法です。 グラフ解析とは何か グラフというと、折れ線であったり縦棒であったり、そういった数値を可視化するツールとしての印象をお持ちかもしれませんが、数学の用語としては様々な要素と要素の関係性を分析するツールという意味で用いられます。 つーても分かりづらいかもしれませんが、『人物相関図』のようなものと言えば

    互助会の構造をGephiで可視化してみる - ゆとりずむ
  • Excelのダメなグラフでウソをつく法|Colorless Green Ideas

    Excel のグラフで事実を誇張したい場合、3Dグラフを使うと便利だ。というわけで、普通の棒グラフでなく、3D棒グラフを作る。 合格者数の推移を3D棒グラフにしたもの [1] グラフを描く視点を変える この段階だと、まだ「圧倒的な」感じはしない。だが、グラフを描く視点を変えれば、「圧倒的な合格力」を見せつけることができる。グラフを描く視点を変えるには、グラフ上で右クリックをしてメニューを出し、「3-D 回転…」を選ぶ。 「3-D回転…」というメニューからグラフを描く視点を変えることができる。 そうすると、次のような画面が出てくる。この画面の数値をいじることで、グラフの描かれ方が変わる。 数値を変えることで、グラフを描く視点を変え、別の印象を与えることができる。 まずは、「軸の直交」というチェックを外す。そうすると、次のような形のグラフになる。 「軸の直交」というチェックを外したあとの3D棒

    Excelのダメなグラフでウソをつく法|Colorless Green Ideas
  • 絶対に描いてはいけないグラフ入りスライド24枚 -slideshare

    These slides include many inappropriate graphs. If you want to tell the summary of the data correctly, you should avoid to use graphs in this presentation. They can mislead those who view them. In English, the title of presentaion is "24 slides including graphs that should not be absolutely drawn".Read less

    絶対に描いてはいけないグラフ入りスライド24枚 -slideshare
  • 70年近くに渡る大学授業料の推移をグラフ化してみる(2016年)(最新) - ガベージニュース

    昨今では多くの人が通い卒業することになる大学。その修学費用に関して金額の負担の大きさが問題視される一方、かつて大学へ修学していた人たちによる「大学授業料位は自分の手で稼いだものだ」とする意見を少なからず見聞きする。そこで今回は【50年前の商品の価格を今の価格と比較してみる】で用いた手法を流用する形で、総務省統計局における公開値【小売物価統計調査(動向編)調査結果】から各種計算を施し、大学授業料の推移を確認していくことにする。 上昇続ける大学授業料、やはり私立の方が高い グラフを作成・精査するデータの取得元は上記にある通り、総務省統計局における小売物価統計調査。東京都区部の小売価格を参考に、70年強前の1950年以降、一年間を終えて年平均が算出できる直近の2022年分までの値を随時取得していく。さらに月次に限れば現時点で2023年5月まで取得可能であることから、その5月分を取得してこれを20

    70年近くに渡る大学授業料の推移をグラフ化してみる(2016年)(最新) - ガベージニュース
  • チャートやグラフを飛躍的に分かりやすくするシンプルなポイント10個

    情報を可視化すると人に伝わりやすく、また強く印象に残すことも可能です。そのためプレゼンテーションにおけるチャートやグラフは非常に重要になってきますが、一歩間違えば情報を分かりにくく、最悪の場合、間違った理解を見ている人に与えてしまいます。そこで、HubSpotがチャートやグラフのデザインなどプレゼン資料を飛躍的に見やすくするポイント10個を公開しています。 Why Most People's Charts & Graphs Look Like Crap http://blog.hubspot.com/marketing/data-visualization-mistakes Why Most People's Charts and Graphs Look Like Crap http://visage.co/peoples-charts-graphs-look-like-crap/ ◆01

    チャートやグラフを飛躍的に分かりやすくするシンプルなポイント10個
  • [R] 散布図行列 (corrplot, pairs, GGally)

    データが与えられた時にはまず可視化をします。そのデータがどのような仕組み(メカニズム)で作られてそうなったかを考えるために必須のプロセスです。しかしながら、どんな可視化がベストかははじめの段階では分からず、とにかくプロットしまくることになります。そのとっかかりに僕がよく使うのが散布図行列(scatter matrix,scatter plot matrix)です。 今回は3つほど紹介します。 ●1. {corrplot}パッケージの corrplot()関数 5行目で相関係数行列を作ってそれを渡しておしまいです。相関係数行列の作り方は各自の自由です。上記ではSpearmanの順位相関係数を使っていますがMICとかでもいいと思います。 このcorrplotのデメリットとしましては散布図は表示できない点です。散布図行列と言っておきながらすみません。説明変数が100個以上あるときなどは散布図を描

    [R] 散布図行列 (corrplot, pairs, GGally)
  • “女性が消える社会”いま何が|特集まるごと|NHKニュース おはよう日本

    近田 「『DATAFILE.JPN』。 データから、今、日で何が起きているかが浮かび上がります。 『おはよう日』では、人口動態調査などのデータを読み解き、社会の実相を明らかにするシリーズをネットとも連動してスタートします。」 和久田 「第1回のテーマは、『女性が消える社会』。 いったい、何が起きているのか。 まずは、こちらのデータからご覧ください。 こちら、皆さんもよくご存じの出生数の減少を示すデータです。 第2次ベビーブーム以降、右肩下がりが続いて、人口減少に歯止めがかからない状態が続いています。 では、これを別の角度から見ます。 こちらは全国47都道府県ごとの出生率を示したものです。 グラフが短い上の方ほど出生率が低いことを意味しています。 見てみますと、東京や京都、北海道も含まれていますが、埼玉、神奈川と、主に都市部で低く、そして地方では比較的高い傾向にあります。 つまり、都市

    “女性が消える社会”いま何が|特集まるごと|NHKニュース おはよう日本
  • [R] ggplot2の色をプレゼンでも使いたい

    たまには軽い話題も。 プレゼンの配色は統一感が大切。下記のスライドは参考になります。 ノンデザイナーのための配色理論 from tsukasa obara 色彩センスのいらない配色講座 from Mariko Yamaguchi そこで、ggplot2で書いたグラフを張り付ける際には、その他の図形の色もなるべくggplot2の色の範囲におさめたくなります(同じ色を使うことで混乱させる場合はもちろん使ってはいけません)。 そんな時は下記の関数からRGBを作れます。引数のlの値を変えた暗い色や明るい色は重ねる場合に使ったりします。 デフォルトの色は以下のようになります(Cookbook for Rのggplot2の記事から引用)。 個人的にn=3,5,10の値をよく使うので表にまとめておきます。 ●3色 123#F8766D#00BA38#619CFFred248097green1181861

    [R] ggplot2の色をプレゼンでも使いたい
  • 突出したグラフは途中を省略するのがマナーです

    「そうなのだ。この日にイベントを仕込んだのだよ。そしたらこんなに客が増えた。これを根拠に別のイベントを客に売り込もうという算段だ」 なるほどね。しかし10月13日があまりにも突出し過ぎていて、他の日の違いがよくわからんな。通常こういう場合、突出した棒の途中を省略するもんだぜ。 「Excelにそんな機能があるのか?」 うーん、残念ながらないね。実際省略しようと思うと手作業で実行しなければならない。ちょっと貸してみな。実際にやってみよう。

    突出したグラフは途中を省略するのがマナーです
  • 「エンジニアのためのデータ可視化[実践]入門 ~D3.jsによるWebの可視化」を執筆しました - PolyPeaceLight

    僕のような人間が書いていいのか、とは執筆前・執筆中・そして執筆が終わった今もずっと思っていますが、兎にも角にも書き終わりました。 エンジニアのための データ可視化[実践]入門 ~D3.jsによるWebの可視化 (Software Design plus) 作者: 森藤大地,あんちべ出版社/メーカー: 技術評論社発売日: 2014/02/20メディア: 単行(ソフトカバー)この商品を含むブログを見る 2月20日に書店に並ぶそうです。 内容について うまく伝えられているかはわからないですが下記のようなことを意識して書きました データ可視化は情報との対話であり、「データに存在する事実を掬い上げやすく加工する」「データに存在する事実を効率的に伝える」作業そのものである データ可視化はデータ処理(収集・保持・分析・解析)と企画者(施策・経営)のコミュニケーションを円滑にするものである 上記を実現す

    「エンジニアのためのデータ可視化[実践]入門 ~D3.jsによるWebの可視化」を執筆しました - PolyPeaceLight
  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • 櫻田潤 | インフォグラフィック・エディター

    ビジュアルの力で世界を丸くする。 地球の形状が「丸い」のは、そこで暮らす僕たちにひとつの「ビジョン」を指し示しています。地球の形と同じように、世界で起こっていることのすべてが丸く収まっていれば良いのですが、現実は違います。 大小いろいろな規模の摩擦がいたるところに発生し、繰り返されます。その解決に必要なのは、お互いの「考え」や「価値観」「立場」、「状況」「状態」を示し、認め合うことです。そのために、「ビジュアル」の力を活用していきます。

    櫻田潤 | インフォグラフィック・エディター
  • パワポでグラフをわかりやすく見せる7つのコツ |プレゼンデザイン

    はじめに 当記事では、グラフ・プレゼン資料の作成に、MS社の「Excel」と「PowerPoint」の使用を前提としている部分があります。他のツールにも流用可能な記載を意識していますが、あらかじめご了承ください。 テーマカラーを合わせる たかが色、されど色。色はデザインの中でも、見る人に強い印象を与える要素です。これまで当サイトでは、プレゼン資料にテーマカラーを決め、ルールに沿った色使いをすることをお勧めしています。そしてこれは、資料に埋め込むグラフについても同様です。しかし、エクセルで作ったばかりのグラフは、以下のように独特な色合いをしており、スライドに自然になじんでいるとはいえません。 テーマカラーが守られていないスライド 違和感の原因は、テーマカラー(特にメインカラーとベースカラー)の違いです。スライドそのものは「メイン:青、ベース:白」であるのに対し、グラフの部分は「メイン:紫、ベ

    パワポでグラフをわかりやすく見せる7つのコツ |プレゼンデザイン
  • 不思議な円グラフを描くウェブサービス作ったよ - aike’s blog

    最近ツイッター界隈で不思議な円グラフを見かけました。 こんなやつです。 ちょっと調べてみると昨年の報道番組からキャプチャした映像のようです。 このグラフを見て、その手があったか!という新鮮な驚きを感じました。これまでの円グラフの常識にとらわれず、円の中心からあえてずらした位置から分割することで飛躍的に表現の幅を向上させています。無味乾燥で機械的なグラフにくらべて製作者の強い思いがぐっと伝わってきます。なんとイノベーティブでなんとワンダーなグラフなのでしょう。 でも、このグラフ、実際に描こうと思うとけっこう面倒です。Excelのグラフ機能をみても中心点の位置をずらす方法はなさそうです。 そんなわけでゆがんだ円グラフを描くウェブサービスを作りました。 ワンダー・グラフ・ジェネレイター 項目の追加変更はもちろん、中心をずらしたり、楕円形にして項目を強調したりできます。円グラフの秘められた表現力を

    不思議な円グラフを描くウェブサービス作ったよ - aike’s blog
  • Pythonを使って簡単にデータを視覚化する

    世の中のことをもっと知るにはどうしたら良いだろうと思うときがある。世の中の多くの事柄はログやデータに落とされる。Googleなどの検索サイトは良い例だろう。さて、そのログやデータをどうすれば良いのか? 多くの場合、視覚化が有効な手段となる。 まずは身の回りの日常的なデータやログを何とかしたい。ただ、日常のデータを視覚化するのに数十行以上のコードは書きたくない。まるで息をするかのごとく自然に視覚化を行いたいのだ。そのためには1~2行、長くて数行で済ませることが必要だ。そこでPythonとmatplotlibを使う。加えて、IPythonがあればなお良い。IPythonの導入については以前のブログ記事であるIPythonの埋め込みプロットが素晴らしいを参考にして欲しい。 まずは事前にnumpyとmatplotlibをインポートしておく。できればscipyも。 >>> from numpy im

    Pythonを使って簡単にデータを視覚化する
  • Microsoft、Excelでインタラクティブな3D地図上グラフを作れるアドイン「GeoFlow」を発表

    Microsoftの研究部門であるMicrosoft Researchは4月11日(現地時間)、Microsoft Excelのアドイン「GeoFlow」のプレビュー版を公開したと発表した。Excelのデータを地図上の3Dグラフに視覚化し、データを視覚的に分析したり、地図上を移動したり時間軸を移動したりできる“インタラクティブなツアー”を作成できる。 「"GeoFlow" Preview for Excel 2013」はMicrosoftのDownload Centerから無料でダウンロードできる。利用するには、Windows 2008 R2(.NET Framework 4.0が必要)/Windows 7/Windows 8上のOffice Professional Plus 2013あるいはOffice 365 ProPlusが必要。また、Bing Mapsのデータを利用するため、イ

    Microsoft、Excelでインタラクティブな3D地図上グラフを作れるアドイン「GeoFlow」を発表
  • Twitterネットワークの可視化 - よしなしごと

    入門 機械学習の11章でTwitterのネットワーク可視化がトピックになっていて面白そうだったので、Pythonで作成してみました。*1 某Q大の図書館のアカウントを分析してみました。*2大きく2つに分かれていて、左側が図書館関係のアカウント、右側が大学関係のアカウントになっています。図書館関係のアカウントもそのなかで、LSS関係、大学図書館公式、あたりはクラスタになっていそうな感じです。大学関係のアカウントで多くフォローを集めているのは、個人よりも大学関連の情報発信系のアカウントのようです。個人ユーザーとおぼしきアカウントは、図書館系のクラスタよりも密度が低くなっていますね。このあたりに学部ごとのクラスタが出来てないかなぁと期待しているのですが、実際はどうなんでしょうね。 以下にデータとで作成したグラフをいくつか置いておくのでよかったらご覧ください。 https://dl.dropbox

    Twitterネットワークの可視化 - よしなしごと