タグ

tipsとデータに関するh1saoのブックマーク (7)

  • 「データビジュアライゼーションの基礎」のまとめ グラフ編

    こんにちは、Wantedlyでデータサイエンティストをしている樋口です! 先日会社で買ってもらったデータビジュアライゼーションの基礎を読みました。データ可視化について網羅的にわかりやすく書かれており参考になったため、記事にまとめてみました。書籍の英語版は無料で公開されているため、よければこちらも参考にしてみてください。 データビジュアライゼーションの知識を学ぶことで、科学的に誤った表現をせずに、芸術的に美しい表現ができ、明確で明瞭かつ魅力的にデータから得られる示唆を伝えることができる様になります。📊 記事では、特定のライブラリや描画手段によらないデータ可視化の基礎について紹介します。 分量が多くなってしまったので、記事ではデータビジュアライゼーションの”グラフ"にのみ着目しています。グラフ以外の構成要素(色、タイトル、テキスト、etc.)については別途記事にしたいと思います。 記事

    「データビジュアライゼーションの基礎」のまとめ グラフ編
  • pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

    こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ??」 ってなること、ありませんか?僕は10分に1回程度なります。 いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。 物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ~以外を表すやつ andとor inf弾く リストをdfにサクッと変換 datetimeとして読み込み 読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins

    pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト
  • PythonのNumPyとFakerパッケージを使ってダミーデータを作成する - Qiita

    なぜダミーデータにこだわるのか 機械学習などのライブラリやツールを使う際に扱うデータはとても重要になります。データがなければ、デモを行うこともできません。実データを使うことが一番ですが、なかなか身近に求めているタイプの実データがないケースも多いと思います。最近は分析に使いやすい実データが一部の企業から公開されていますが、研究目的の使用に限られているなど、使用条件を満たせられないこともあります。 データがなければ自分で作ればいいということで、ダミーデータを自由に作れると便利です。 ダミーデータを作るにあたっては、その目的によって作り方に工夫が必要です。大きく分けると次の二つになると思います。 パフォーマンス測定としてのダミーデータ データ分析としてのダミーデータ パフォーマンス測定においては、全データ読み込み速度測定などシンプルなものであれば、データ量さえ合わせれば用件を満たすケースも多いと

    PythonのNumPyとFakerパッケージを使ってダミーデータを作成する - Qiita
  • 改訂版: プログラマーが効果的な可視化を作成する (前編) - Qiita

    改訂版について (5/7/2019公開) この記事は、私がこちらに公開したもの中では最も読まれているようです。そこで、執筆後に気づいたこと、古くなった情報、新しい技術動向などを考慮に入れて改訂をしました。主な変更点は以下の通りです: 新しいセクションの追加 最近のの紹介 細かな表現の修正 この記事は複数のセクションに分かれていますので、前編から始め、順番にアップデートして行きたいと思います。何かお気付きの点などありましたら、コメント欄、もしくはkonoアットマークucsd.eduにお願いいたします。 はじめに この記事は、可視化の専門家ではない人がコンピュータを使ってデータ可視化を実際に行う場合に必要な、一般的なノウハウをお伝えするシリーズの第一回です。 前編: 効果的なデータ可視化とはどのようなものか? (稿) 中編: 分かりにくい可視化を避けるための手法の選択 後編: Part 1

    改訂版: プログラマーが効果的な可視化を作成する (前編) - Qiita
  • 統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト

    Rは統計をするうえでとても使い勝手の良いプログラミング言語です。 スライドでは、データの型の説明から、集計までに基的なプログラミング方法を説明します。 会社サイト:http://www.data-artist.com/Read less

    統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
  • AWS EC2 の Ubuntu に GUI を入れてブラウザ操作を自動化する話 - ウェブ雑記

    こんにちは これからフロントエンジニアになる予定だけど、バックエンドも、というかクローリングが大好きな僕です。Amazon Web Service を駆使して、効率的かつスピーディーにデータを色々なところから情報を取ってきて、たくさん楽しいことをしたいわけです。 だが、現実はそんなに甘くない 実際にはブラウザを介さないと情報が取れないサイトもたくさんあります。「ちゃんとブラウザでクリックしてくれないと私、データあげないんだから><」的なことを言われるのは日常茶飯事です。(要は javascript)そういう上品なウェブサイトには、ズケズケと土足で踏み込むのではなく、ちゃんと user agent をつけてあげたり、時にはブラウザを介してあげたりして、焦らずゆっくりと(wait() 的な意味で)、丁寧に接してあげなければなりません。 じゃ、ブラウザを使おう というわけで今回は AWS で立て

    AWS EC2 の Ubuntu に GUI を入れてブラウザ操作を自動化する話 - ウェブ雑記
  • Excelの「条件付き書式」はすばらしい - 結城浩のはてなブログ

    日付や数値がたくさん入っているデータがあるとします。 そのデータについて「何かわからないかな?」という簡単な分析をしようと思ったとき、Excelの「条件付き書式」が非常に手軽で便利です。 条件付き書式を使うと、セルの数値の「相対的な大きさ」をセルの中に「グラフ」のように表示したり、「相対的な大きさ」を「色の濃度」で表現したりという指定ができるのです。 ↓たとえば、このような感じになります(このデータは適当に作りました)。 このようにすると、Excelの表そのものが、データの傾向や特異な点を視覚的に教えてくれるようで、なかなか楽しくなります。 【旧商品】Microsoft Office Excel 2010 通常版 [パッケージ] 出版社/メーカー: マイクロソフト発売日: 2010/06/17メディア: DVD-ROM購入: 9人 クリック: 136回この商品を含むブログ (12件) を見

    Excelの「条件付き書式」はすばらしい - 結城浩のはてなブログ
  • 1