[B! 統計] shion214のブックマーク

shion214 id:shion214

統計に関するshion214のブックマーク (174)

カイ二乗検定は何をやっているのか｜コグラフ株式会社データアナリティクス事業部
こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。私は「カイ二乗検定」に対して、当初は納得できない部分がありました。やりたいことに対して、必要以上に複雑な手法のように感じたからです。同じような疑問を持つ方も多いのではないでしょうか。この記事では、私が「カイ二乗検定」を理解し納得するまでの過程をお伝えします。結論から言いますと、一度頻度論を離れてベイズ統計の視点で考えてみたところ、実は非常に単純なことを行っていると気づきました。その後、カイ二乗検定を再び考え直すと、すんなり理解できたというお話です。カイ二乗検定の手順まず、サイコロを何度も投げ、出た目の回数（実測値）を記録します。偏りのないサイコロでは、全ての目が均等に出るはずです。この理論的な回数を理論値と呼びます。次に、実測値と理論値の差を計算し、その差を二乗してから理論値で割ります。この計算結果を「ズレ」と呼びま
shion214 2024/10/09
データ

技術

統計

あとで読む

数学
リンク
庁内に灯った“Tableauコミュニティ”の炎。神戸市が「内製で動ける」データ利活用集団になるまで【フォーカス】レバテックラボ（レバテックLAB）
神戸市は、行政データの利活用にいち早く取り組んできました。2022年6月には、行政データで作成したダッシュボードにアクセスできるポータルサイト「神戸データラウンジ」を庁内の職員向けに開発。庁内メンバーが閲覧できる90種類以上に及ぶ全てのダッシュボードは、職員自ら、BIツール「Tableau」で作成しています。翌年には、国勢調査のオープンデータをダッシュボード化して、一般ユーザーが閲覧可能なデータポータルサイト「神戸データラボ」で公開し、話題となりました。自治体というレガシーなイメージのある世界のなかで、どうやってTableauを使いこなす職人集団が生まれていったのか？その根底には、技術コミュニティの理念が大きく影響していたようです。現在最前線で活躍する職員、そして最初にTableauを庁内に導入し、たったひとりで3年間「種まき」をし続けたキーパーソン本人に、それぞれ取材しました。 ke
shion214 2024/09/26
データ

ツール

excel

統計

data
リンク
Pythonによる重複の確認方法とデータ匿名化の方法 - Qiita
概要目次 Pythonでデータに重複があるか確認する方法 PyCon JPが不正をしていない理由の解説本記事では、Pythonで重複したデータを集約する方法、及び、機密情報を隠して集計をするための手法について解説します。本記事で紹介するコードは投票結果の集計やアイデアの集計などで有効に使うことができます。内容に誤りがありましたらご指摘ください。本記事は、今後の健全なコミュニティの発展に必要不可欠な情報であるため、健全な技術コミュニティの発展を目指す情報交換プラットフォーム、Qiita.comにて公開します。 Pythonでデータに重複があるか確認する方法リスト形式の場合 Pythonでリストから重複があるか確認する3種類の方法を紹介します。重複の有無をbool値で出力します。外部ライブラリ、cythonを使わない場合、データの分布に関する事前情報がない場合はこれらの方法が有
shion214 2024/09/24
記事

ライブラリ

本

統計

データ
リンク
［速報］マイクロソフト、「Copilot in Excel with Python」プレビュー公開。Excel上でCopilotがPythonコードを生成、実行し、複雑なデータ分析など可能に
マイクロソフトは本日（日本時間9月17日）0時からオンラインイベント「Microsoft 365 Copilot: Wave 2」を開催し、Microsoft 365 Copilotの複数の新機能などを発表しました。 With Copilot in Excel, you can create advanced visualizations, generate forecasts, and save time sorting through data with Python. Take a look: https://t.co/uqE1VyQ5WU #AI #Microsoft365 pic.twitter.com/e7Eph9q4Oc — Microsoft Excel (@msexcel) September 21, 2023 Pythonコードにより高度なデータ分析などを実現 Copi
shion214 2024/09/17
excel

あとで読む

データ

microsoft

統計
リンク
雑にJSONデータを分析させてみる-ローカルLLMの底力 | IIJ Engineers Blog
地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 2024/08/22修正：はてなブックマークのコメントから、「それってデシリアライズって言わないよ」というご指摘を頂戴しました。恥ずかしながら浅学であったがゆえに用語を取り違えたまんま長らく覚えてまして、これを整形表示（Pretty Print）と修正させていただきました。最初の用語登場箇所のみ修正した内容として取り消し線付きで記述しておりまして、それ以降は置換させてもらっています。ご指摘誠にありがとうございました<(_ _)> これとは別に、後半で記述してるコードの一部に使わ
shion214 2024/08/22
データ

blog

統計

あとで読む

IT
リンク
退職代行モームリ累計利用者15,934名分のデータ・利用された企業情報を公開
退職代行モームリ累計利用者15,934名分のデータ・利用された企業情報を公開～Z世代と新卒で増加する退職代行利用者、労働者の本音はどこに～報道関係各位 2024年8月7日株式会社アルバトロス退職代行モームリを管理している株式会社アルバトロス（本社：東京都港区、代表取締役：谷本慎二）が、2024年8月1日（木）に退職代行の利用状況の調査を行いましたので、その結果を公開致します。株式会社アルバトロス　https://www.alba-tross.jp/ 退職代行モームリ　https://momuri.com/ 退職する会社に本当の退職理由を伝える方はほとんどいないと言われています。退職代行モームリには利用者15,934名の生の声を反映させたデータがあり、日々蓄積されています。当社の保有している膨大なデータは、労働者はもちろん企業の方にとっても非常に有益かつ貴重な情報となるかと思いま
shion214 2024/08/09
データ

仕事

企業

統計

あとで読む
リンク
国交省、全国都市計画のGISデータを統一フォーマットで公開
shion214 2024/07/12
データ

*あとで読む

地図

統計

あとで読む
リンク
SQLが書けたら分析ができるようになるのか｜データ分析とインテリジェンス
「みんなSQLが書けるようになる」ことは本当にいいことなのかPdM・PM・営業・デザイナーなど、エンジニアやデータ分析者以外の人でもSQLを書くことを奨励している企業を時折見かける。極端な話ではみんながSQLを書けるなんて話もある。そういう話を見るたびに「本当にそれが一番いい方法なのだろうか」と気になっている。全ての人が全ての仕事ができる、は理想だがそれが無理だから役割を分担しているはずだ。なのになぜかSQLについては誰でもできる、みたいな話になっているのは不思議でならない。そんなわけで「みんなでSQLを書くことがいいことなのか」ということを改めて考えてみたら長くなった。そこでまずは「SQLが書けると分析ができるようになるのか」を考えてみよう。 SQLが書けたら分析ができるようになるのか「分析ができる」ということ自体が曖昧なので、「分析」という行為に含まれるだろういくつかの部分に分けて
shion214 2024/07/12
データ

*あとで読む

データベース

あとで読む

統計
リンク
【特集】そのデータ、本当にクラウドに預けて大丈夫？NAS導入のススメ
shion214 2024/07/12
データ

あとで読む

統計

HDD

ストレージ
リンク
地理空間情報×ChatGPT Code Interpreter　3Dデータ編
はじめにこの記事では、ChatGPT Code Interpreterを用いて地理空間情報の中でも3Dデータに対する処理がどこまで出来そうかを調査していきます。記事を書こうと思った経緯や2Dのベクタデータに対する調査はこちらの記事に書いています。調査調査の概要以下の3つの内容をChatGPTに依頼して調査していきます。 Project PLATEAUにて配布されているCityGML形式データの可視化兵庫県が公開しているDSMデータの可視化静岡県が公開している3次元点群データの可視化 1. CityGMLデータの解析 CityGML形式のデータをアップロードし、このデータの可視化を頼んでみます。使用したデータ国土交通省都市局「3D都市モデル（Project PLATEAU）東京都23区 CityGML」指示した内容 1つ目の指示この指示を実現には以下のようなことを行う必
shion214 2024/07/02
ChatGPT

データ

統計
リンク
TTM2HADの使い方 | Sunny side up!
HAD12.2から，テキストマイニングも一部できるようになりました。 HADについてはこちらをご覧ください。テキストデータは，テキストを単語に分解して，単語間の関係性を見たり，共頻関係からデータを数量化したりすることで分析を行います。単語の分解は，同じくExcelで動くフリーソフトである，ExcelTTMを用います。ExcelTTMは大阪大学の松村先生が開発したフリーソフトで，テキストを分かち書きして，簡単な集計を行ってくれます。 HADはExcelTTMが分解した単語データを読み込んで，クラスタ分析や対応分析などを行うことができます。具体的な使い方は，以下のスライドシェアを御覧ください。
shion214 2024/06/19
スライド

データ

フリー

ソフト

excel

テキストマイニング

統計
リンク
機械学習を使うデータサイエンスの仕事に比して、統計学を使うデータサイエンスの仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ
近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」（機械学習メイン）と「アナリストの延長としてのデータサイエンティスト」（統計学メイン）とにキャリアもポジションもカルチャーも分化するようになって久しい印象があるのですが、世の中に溢れる求人情報や各種SNSで流れてくる巷の声を見聞きする限りでは、どう見ても前者の方が数が多い上に需要も旺盛なんですよね。発展というよりMLを使ったプロダクトでお金稼いでいる会社があって、統計学やエコノメベースでプロダクトを作る事業会社がないだけだと思います。統計学とか示唆出しの手段なので、ブラスでお金稼ぐ感覚がないと居場所がないだけかなと。 https://t.co/PCDQHiIvlJ— be (@behemuhemulove) 2024年6月11日で、畏友*1beさんがこ
shion214 2024/06/19
統計

学習

データ

仕事

ブログ
リンク
GASを使用してログインが必要なページからデータを取ってきてみた - Qiita
はじめにはじめまして、エンジニア歴半年のGopherくんLoverなペーペーエンジニアです。今回は、仕事の関係でスクレイピングをしたい場面があったので、その内容を備忘録として記録しようと思います。やりたいこと・仕事の都合で数値を扱うことが多いのですが、管理画面上だと何かと不便…… ・独自に数値を編集するために、スプレッドシートに落としたいが、エクスポートできない(なんでやねん) ・全部手動で取ったら時間的大赤字なので、自動でとりたいという経緯で作成してみることにしました。 Pythonはやったことがなかったので、一旦触ったことがあるGASを使用してやってみることにしました。 (本当はPythonでやってみたい……) 実装しながら並行で書いたので、処理は少し独自性が強いかもしれません。参考程度でお読みいただければ幸いです。～流れ～ ⓪事前準備(ライブラリのインストール) ①ログ
shion214 2024/06/14
データ

ライブラリ

統計
リンク
パワークエリで2行データを１行データに変換する方法｜とある会計士のひとりごと。
この記事でやりたいこと 2行データと、変換後のデータサンプル例えばこんなデータを見たことはないですか？このように、セルの結合までされてる2行のデータを、下図のような1行のデータにしようというのが今回の趣旨です。そう、こんな形に変換出来ればここからの加工や分析がしやすいですよね。パワークエリでの作業プロセスやりたいことは2つで、1行目と2行目のテーブルに分割し、それを横付けで合体する。この２つをパワークエリで処理するためのキモはこうです。 1行目と2行目のデータに分割するデータの取り込みまずはデータタブの「テーブルまたは範囲から」をクリックします。そして取り込む範囲を指定し、OKを押し、パワークエリの編集画面が開いて取込ができればOKです。行数ごとのインデックス列の追加次に、データごとに1行目には１を、2行目には2となる条件列を追加します。列の追加タブの「例からの列
shion214 2024/06/11
データ

変換

PowerQuery

統計

convert
リンク
ドラマ「セクシー田中さん」調査報告書を公表　日本テレビ｜日テレNEWS NNN
日本テレビ系列で去年10月から放送されたドラマ「セクシー田中さん」の原作者で、漫画家の芦原妃名子さんが今年1月、亡くなりました。芦原さんの大切な作品をドラマ化するにあたりどんな問題点があったのか、日本テレビはドラマ制作過程などを調査し、31日、報告書を公表しました。 ◇ 芦原さんは、9話・10話の脚本を脚本家に代わり自ら担当した経緯をSNSで明かすなどした後、亡くなりました。今年2月、日本テレビは外部の弁護士も加えた社内特別調査チームを設置。この調査は、ドラマ制作関係者がより一層安心して制作に臨める体制をつくることを目的として、事実関係や問題点などを調べました。調査では、ドラマ制作サイドの日本テレビと原作サイドの小学館との間で、大きな認識の齟齬（そご）やミスコミュニケーションが積み重なったことで信頼関係が損なわれていたことがわかりました。その結果、原作者や脚本家が不満や不信感を蓄
shion214 2024/06/01
news

家

漫画

統計

あとで読む
リンク
Splunk、2024年版のセキュリティ調査レポートで生成AIがサイバーセキュリティ環境に与える影響が増大していることを明らかに | Splunk
組織全体を可視化してインサイトを獲得し、セキュリティの強化、信頼性の向上、イノベーションの加速を図りましょう。
shion214 2024/05/19
セキュリティ

ビジネス

security

AI

統計
リンク
やさしいデータ分析【確率分布編】　新連載開始！
この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載（記述統計と回帰分析編）の続編で、確率分布に焦点を当てています。この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト（Microsoft ExcelやGoogleスプレッドシート）を使いながら具体的に事例を見ていきます。必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。筆者紹介： IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大
shion214 2024/05/10
学習

*あとで読む

データ

統計

あとで読む
リンク
そのデータ活用は「人と組織の成長」につながっているか──ANA野村氏が部門横断で取り組む「顧客ファーストなデータ活用組織」の作り方 - Darsana
データ活用が企業の未来を左右する──。デジタル化が加速し、膨大なデータが取得できるようになった昨今、多くの企業が、この「宝の山」をいかにビジネスに活用できるかを試し続けている。しかし、部門を横断するからこそ発見できるような「本質的なビジネス課題」の解決に取り組んでいる企業は、まだ少ないのが実情だ。データやシステム、組織のサイロ化に足をすくわれ、思うようなデータ活用ができていないという話は枚挙にいとまがない。このデータ活用の差は、いったいどこから生まれるのか──。 Darsanaでは、その差が生まれる原因の一つを「データを使って課題を解決する人と組織のあり方」によるものと仮定し、データ活用を成功させるためのプロセスとデータ人材の発掘・育成について考えるイベントを開催した。本イベントには、データ人材の発掘と教育、組織設計、システム基盤の構築を積極的に行ってきた全日本空輸株式会社（以下、A
shion214 2024/05/02
データ

開発

統計

IT

あとで読む

まとめ
リンク
はじめての「相関と因果とエビデンス」入門：“動機づけられた推論” に抗うために
人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy！＊書籍：林岳彦著『はじめての統計的因果推論』（岩波書店）の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html
shion214 2024/04/28
book

あとで読む

スライド

書籍

統計
リンク
Excelで学ぶ、やさしいデータ分析
データ分析に興味はあるけれど、どこから手を付けていいか分からない……そんなあなたにぴったりなのが、この無料の電子書籍『Excelで学ぶ、やさしいデータ分析』です。ここから、データ分析の第一歩を気軽に踏み出してみましょう！この電子書籍は、「Microsoft Excel」「Googleスプレッドシート」など日常的に触れる表計算ソフトウェアを使って、自分の手で体験しながら段階的に学べるように設計されています。概念や手順は誰でも理解できるように丁寧に易しく説明されており、数学やプログラミングの前提知識も必要ありません。本書は、データ分析を初歩から学びたい方々に向けた「包括的な教科書」として、データの取り扱い方から基本的な分析方法まで、幅広いテーマを網羅しています。具体的には、以下の全16回で構成されています。データ分析の基礎：第1回　データ分析を学ぶべき理由と連載概要第2回　前提基礎：
shion214 2024/04/25
excel

データ

グラフ

書籍

統計
リンク
1 2 3 4 5 6 7 8 9 次のページ