Copyright © 2024 Speaker Deck, LLC. All slide content and descriptions are owned by their creators. About Terms Privacy DMCA Accessibility Statement
前回の記事の続きです。 bob3.hatenablog.com 結論 使える同時布置図の描き方 コレスポンデンス分析の基本的な流れ 標準化残差の算出 標準化残差(Z)を特異値分解する ちょっと脱線 カイ二乗検定と残差分析 座標の重みづけ 標準座標 主座標 対称バイプロット 座標の組み合わせ 指標化残差が角度と長さで表現できてるか確認 フレンチプロット(主座標) 非対称プロット(列主座標) 対称バイプロット 大きな集計表で再確認 結論(再掲) 参考リンク 結論 今回も最初に結論を。 縦横のスケールを合わせるのが大前提です。 そうしないと見かけ上の角度が歪んでしまいます。 コレスポンデンス分析の同時布置図を描くときは、対称バイプロットがおすすめです。 指標化残差を正確に角度として表現できて、なおかつ見やすいので。 従来の同時布置図はフレンチプロットが多いと思いますが、正確でないのであえて選ぶ理
はじめに 結論 解説 サンプルデータ コレポンの実行 指標化残差 コレポンにおける指標化残差の表現 注意! まとめ さいごに 参考リンク はじめに 松本健太郎さんの「マーケティングリサーチで使われるコレスポンデンス分析について調べてみた」という記事が書かれたころからでしょうか、コレスポンデンス分析(以下、コレポン)の同時布置図に対する否定的な意見をよく目にするようになりました。 松本さんの議論は どの年代で見ても20代の購入量は圧倒的なのです。そのような見方は、数量で見れば違和感を覚えます。 という疑問をきっかけに コレスポンデンス分析は、それぞれ行得点・列得点を算出しているだけで、それらを重ね合わせたに過ぎません。 つまり列要素と行要素との距離は、数理的に定義されず「近い」「似ている」のように解釈できないのです。 というところから コレスポンデンス分析は行・列をごっちゃにして分析しない。
はじめに 今回扱うこと、扱わないこと RとRStudioを使ったSQL学習環境の構築 RSQLiteパッケージのインストール 練習用サンプルデータの準備 RStudioでSQLを書く SELECT文を学ぼう サンプルデータについて SELECTとFROM WHEREによる条件付け フィールドの加工 並び替え テーブルの紐づけ 集計する Enjoy! リンク集 ※同じ処理のdplyrでの書き方を追記しました。(2022.01.15.) はじめに この記事は「Rは使っている、もしくは学習中であるが、SQLにはなじみがないデータサイエンティスト志望」の方を主な読者と想定しています。 データサイエンティストに求められるスキルとして、RやPythonによる分析技能と並んで、SQLによるデータ処理技能がよく取り上げられます。 データベースに蓄積された大規模データから、分析に必要なデータをSQLを使って
動機 2021年最大の出来事といえばキング・クリムゾン(以下KC)の来日公演です。 2014年に現体制(公式の区分でいうところのKCVII)が結成されてから3回目の来日となりました。そして、これが最後の来日公演ともいわれています。 コロナ禍のために来日が危ぶまれていましたが、緊急事態宣言解除とオミクロン株による渡航制限発動の狭間で、奇跡の来日が実現しました。 本当に感謝しかありません。 私も東京の5公演に参加しましたが、本当に素晴らしいステージでした。 さて、現体制のKCの特徴として、公演ごとにころころと変わるセットリストがあります。 普通のミュージシャンであればツアー中に曲目や曲順を変えることはほとんどないと思いますが、KCは曲目も曲順も毎公演で変わります。 しかし、完全にランダムというわけではなく、ほぼ必ず演奏される曲があったり、この曲の後にはこの曲が演奏されやすい、といった 法則が見
Rひとりアドベントカレンダー26日目です。 Rのofficerパッケージは便利です。 パワーポイントでレポートが簡単に作れる。 こんな感じで会社用のテンプレートを読み込んで出力なんてことも簡単にできる。 library(officer) read_pptx("会社のテンプレート.pptx") %>% add_slide(layout = "表紙", master = "hoxom") %>% ph_with(value = "サンプルレポート", location = ph_location_type(type = "ctrTitle")) %>% ph_with(value = "株式会社ホクソエム", location = ph_location_type(type = "subTitle")) %>% print(my_pres, target = "結果報告.pptx") そしてS
broom: let’s tidy up a bit The broom package takes the messy output of built-in functions in R, such as lm, nls, or t.test, and turns them into tidy tibbles. The concept of “tidy data”, as introduced by Hadley Wickham, offers a powerful framework for data manipulation and analysis. That paper makes a convincing statement of the problem this package tries to solve (emphasis mine): While model input
RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S
はじめまして。データサイエンティストの森下です。 TVISIONでは探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して検討する、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方では管理が難しくなってきます。 そこで、本記事では、purrrのmap()とbroomのtidy(), glance()を用いて複数の回帰モデルを効率的に扱う方法を紹介したいと思います。 まずはライブラリを読み込みます。tidyverseはデータハンドリングと可視化のためのパッケージ群です*1。 tidymodelsはモデリングをtidyなやり方で統一的に扱えるようにするパッケージ群になります。今回はbroomのみ用いますが、後日他のパッケージの紹介記事も書ければと思っています。 lib
おそらく先がない5つのプログラミング言語、といういろいろと怒りをかいそうな記事だが、どうせワタシが愛する C 言語なんかがまたやり玉に挙がってるんだろうと見たら、一番最初に Ruby が挙がっている…… この記事は TIOBE や RedMonk のプログラミング言語ランキングに Dice 独自の求人票情報を加味してるようだが、Ruby は落ち目という認識らしい。うーむ。 それ以外には Haskell、Objective-C、R、そして Perl が挙げられていて、この手の記事の定番といえる Perl、Swift 誕生後やはり定番である Objective-C はそうですかという感じだが、ビッグデータの時代に人気を高めた R 言語ですら、Python に追いやられつつあるというのはそうなんでしょうね。 それにしても Ruby が先がないという意見には異論が出るだろう。ネタ元は Slashd
About This document has been been inspired by this stackoverflow question and by the data.table cheat sheet published by Karlijn Willems. It has been written for my own self-teaching and may contain errors or imprecisions. Corrections and suggestions are welcome. Resources for data.table can be found on the data.table wiki, in the data.table vignettes, and in the package documentation. Reference d
このウェブサイトでは、ICT(情報通信技術)に関する教材の「総務省 ICTスキル総合習得プログラム」をオープンデータとして提供します。「総務省 ICTスキル総合習得プログラム」は、各5講座から成る4つのコース([1]データ収集、[2]データ蓄積、[3]データ分析、[4]オープンデータ・ビッグデータ利活用事例)によって構成され、ICTに関する基礎知識・基礎技術を学ぶことができます。 個々人の自学自習および学校・企業・コミュニティでの授業・勉強会にて、ご活用ください。 総務省 ICTスキル総合習得プログラム このウェブサイトでは、2017年度における総務省の事業として開発された「総務省 ICTスキル総合習得プログラム」に関して説明し、成果に関するファイルを提供します。このウェブページでは事業の成果であるIアイCシーTティー(Information and Communication Techn
データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります(誇張ではなく) Pythonで爆速でデータ集計する方法(体感所要時間:5分) 前提: 以下の環境が整備されていることは、前提とします。 Pythonのインストール(約30分) データ分析に必要な各種ライブラリのインストール(約30分) →numpy, matplotlib, pandas, jupyter など →Anac
※タイトルで煽るのは良くないと思ったのでタイトルを変えました。 まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiitaを読んでいて(Rのが絶対便利…!)というお気持ちが強まってきたので勢い余って書きました。 はじめに PythonはColaboratoryで手軽に試せて非常に良いです。実は、RもColaboratoryから使うことができます。ColaboratoryにはRのカーネルが既に入っているのですが、表から見えないようになっているだけなのです。 そこで、見えるようにしたものを用意しました。 R Example - Colaboratory このノートブックを使えば、Rだってすぐ試せます(もうちょっと詳しい説明はColaboratoryでRやSwiftを使う - Qiitaをどうぞ)。 試して下さい。今すぐ。 使用するパッケージ 主にdplyrを使います
※「Bリーガー」ではなく「Bリーグアール」と読みます ※この記事は随時更新される予定です bleaguerって何? bleaguerはプログラミング言語Rのパッケージ(拡張機能)です。このパッケージを使うと、B.LEAGUEのデータ分析をするのに便利なデータと機能が簡単にRで利用できます。 bleaguerは私が普段分析作業に使っているデータや関数などを便利にまとめたもので、ここ最近の分析作業はこのパッケージを自分で使いながら行っています。少なくても私の効率はこれで大分上がりました。 何ができるの? 各種B.LEAGUEのデータをRに簡単にロードできます。現時点でサポートされているデータは以下の様なものです。 ゲームの日付 開催アリーナ名称 観客動員数 ゲームの種類(レギュラーシーズン、プレシーズン、ポストシーズン) ホームチームとアウェイチーム チームごとのスタッツ(基本的にはこのページ
統計データを分析する際に使う「R」というプログラミング言語がある。無料のオープンソース・ソフトウェアで、Rを使えば、データの加工や操作、線形回帰、ランダムフォレストのような機械学習の分析、解析したデータの可視化が可能になる。「Python(パイソン)」と並び、統計分析を手がける人々に人気の言語だ。 Rはオープンソースのため世界中のエンジニアが修正や機能追加を進めている。その中で、データフレームの操作に特化した「dplyr(ディープライヤー)」やデータ可視化の「ggplot2(ジージープロット2)」など、人気のパッケージ開発で貢献した人物がいる。ソースコードの入力からコンパイルやデバッグまでが可能なRの総合開発環境を提供するRStudioのチーフ・サイエンティスト、ハドリー・ウィッカム氏だ。 ウィッカム氏が独力で作り上げたパッケージは今では大学の研究者からジャーナリストまで、数多くの人間が使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く