サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
haku1569.seesaa.net
データの分布の様子を見える化して確認する為にまずヒストグラムを描いてみるのが大切なのですが、比較するデータのグループがたくさんある時はいちいちヒストグラムを描くのはめんどくさい。。。 そこで便利なのが"箱ひげ図(Box Plot)"です。 箱ひげ図は"四分位数(点)"から作る事ができます。 "最小値"、"第1四分位数"(25%点)、"第2四分位数"(中央値)、"第3四分位数"(75%点)、"最大値"から作成します。 複数のデータのグループの分布を比較する時は縦型の箱ひげ図を使うと便利です。 箱ひげ図をみてヒストグラムをイメージできるようになるのが肝だ。 箱ひげ図では単峰性(山が1つ)か多峰性(山が2つ以上)かどうかは分かりません。 箱が長くてひげが短いような形の場合はヒストグラムを描いて多峰性かどうかの確認が必要です。 では、次回はこの箱ひげ図をExcelのグラフで実際に描いてみましょう。
さて、前回は相関係数を求めることで、相関の強さ、正の相関、負の相関かどうかが分かるようになったのだけど、じゃ、相関係数を求めればいいかというと、そうではなくて、 相関グラフ(散布図)もちゃんと画いて確認しないと間違いを見落としてしまうケースがあったりします。 今回はそんなことも含めて、相関分析で気をつけておきたいことをまとめてみました。 外れ値 “外れ値”というのは、データの入力ミスだったり、異なるデータが混在したりして、極端に大きい(小さい)データのことで、この外れ値があると“平均値”が大きく変わってしまうことがよく知られています。 相関分析でも、外れ値があると相関係数が小さくなってしまいます。 これを見分けるには相関グラフ(散布図)を画いてみないと見過ごしてしまいます。 直線以外の規則性 前回も説明したように、相関係数は分布が直線に近似できる場合の相関を表す数値です。 なので、上の図の
平均値が外れ値等の影響を受けてしまう場合、平均値よりも中央値の方が代表値として適当であることを前回説明しましたが、それではばらつきについてはどうでしょうか? ばらつきの代表値"標準偏差"も平均値と同じく集団のデータ分布が正規分布に近い場合に有効な値になります。と言うのも、標準偏差も平均値とデータの差をばらつきとしているためです。 そこで、データの分布が正規分布でないような場合でも簡単にばらつきの状態を評価するのが、"四分位数(Quartile)"または"四分位点(Quartile point)"、"四分位範囲(Interquartile range / IQR)"、"四分位偏差(Quartile deviation)"になります。 なので、中央値を代表値とする場合は、ばらつきは四分位偏差を代表値とします。 四分位数はデータを最小値から最大値まで順に並べて4分割(25%ずつ)した時、 第1四
Excelのピボットテーブルで日毎のデータを「グループ化」を使用して年月で集計してみます。 例えば受注データがあって、一日毎の受注金額がピボットテーブルで集計されています。 もちろん、元データは受注日毎のレコードになっています。 受注日にセルにカーソルを置いて。「ピボットテーブルツール」「オプション」「グループ」から「グループフィールド」を選択します。 この時、「グループフィールド」がアクティブにならず(灰色のまま)クリックできない時があります。 そんな時はこちらを見て下さい。 「グループ化」画面が開きます。 ここで、「単位」で「月」と「年」両方を選択します。 「開始日」「終了日」は特に指定が無い時はそのままにしておきます。 すると、このように受注した年とその月毎に受注金額が集計されました。 個人的に、表形式が好みなので変更します。(^_^;) フィールドリストをよく見ると「年」というフィ
Excel2013ではデータベース機能が大幅に向上されています。ACCESSとの使い分けに悩みそうになるかもしれませんが、ACCESSを使うスキルと、ソフトを使う環境を整えるコストを考えれば、Excelである程度データベースをカバーできるようになればありがたいことだとでしょう。 別の見方をすれば、Excelに対して科学技術計算より統計分析へのニーズが求められているということ、つまり時代の要求ということなのかもしれないですね。。。 んで、Excel2013のピボットテーブルに関していえば、テーブル間のリレーションシップが出来るようになったのが画期的なことだと思います。 “リレーションシップ”というのは“関連付け”のことで、複数のテーブルにある共通のフィールドに関連付けを行って、あたかも2つのテーブルを1つのテーブルとして集計させることです。。 では早速、やってみますね。。 食料品の商社(問屋
Excelのピボットテーブルのラベルのフィルターには元データ(データソース)からはとっくの昔に削除したはずのデータのアイテムが依然と表示されてしまう。。。 幽霊か!?バグか!?。。。と思ったりするのだけど、、、 実はこれは「データソースから削除したアイテムの保持」という機能が働いているからのなのです。。。なんで!? MicroSoftによると、「ブックと共に一時的にキャッシュする、各フィールドのアイテム数を指定する」とある。。。。。。m(__)m さっそく、解除っ! 受注日と受注金額を集計したピボットテーブルがあります。 元データ(データソース)には“2013年の6月12日”からのデータしかない。 ここで、受注日のフィルタボタンを押してみる すると、なななんと!? “1996年1月8日”からズラッとあるはずのない受注日が表示されている!! じつはこの元データは元々1996年からのデータだっ
まず、左端の “分類” のテーブルを選択して、左上の選択範囲が表示された窓に「分類」と入力して「Enter」します。
このページを最初にブックマークしてみませんか?
『haku1569 Excel でらくらく データ分析!』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く