並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 106件

新着順 人気順

データ解析の検索結果1 - 40 件 / 106件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

データ解析に関するエントリは106件あります。 データ統計機械学習 などが関連タグです。 人気エントリには 『データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai』などがあります。
  • データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

      データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai
    • 財務省の不適切なデータ解析について|破綻国家研究所

      本投稿は、財務省主計局が公表した資料において、統計的な不備が存在するにもかかわらず結論を導いていると考えられる点を、事実ベースで指摘・説明するものです。 あくまでも事実に基づいた指摘を行っているものであり、陰謀論を助長する趣旨ではありません。根拠のない憶測や陰謀論には強く反対いたします。 1. はじめに昨今、103万円の壁引き上げで財務省に対して 「積極財政をすべきだ」「緊縮財政をすべきだ」などの議論が盛んに行われています。 今回の問題の本質はそこではありません。 財務省主計局がIMFの一次データを用いて相関関係を分析する際に、 適切な統計処理を行わないまま結論を導いています。 積極財政・緊縮財政を語る以前の不適切な統計処理の問題です。 では、なぜその不適切な統計処理が問題になるのでしょうか。 それは、誤った処理によって可視化されたデータやグラフを使って議論しても、 妥当な結論を得ることが

        財務省の不適切なデータ解析について|破綻国家研究所
      • ChatGPT活用を激震させる新機能「Code Interpreter」にNetflixをデータ解析させたらスゴかった

        コード・インタープリターはChatGPTの有料版「ChatGPT Plus」で、GPT-4の付加機能として呼び出せる。 画像:筆者によるスクリーンショット ChatGPTの有料版である「ChatGPT Plus」(月額20ドル)には、7月初めから「Code Interpreter(コード・インタープリター)」という機能が追加された。 この機能が画期的だとして、一時ネットでは大いに話題になった。これまでは面倒だった「データ集計」などを、チャットの命令だけで実行できるからだ。 データ集計は、Excelなどの表計算ソフトやPythonなどのデータ処理に強いプログラミング言語で処理することが多い。 しかしコード・インタープリターでは、それらを使う必要はほとんどなく、データさえ用意できればいい。さまざまな手間がほぼゼロになり、ChatGPT任せにできる。 そうはいってもピンと来ない人も多いはず。そこ

          ChatGPT活用を激震させる新機能「Code Interpreter」にNetflixをデータ解析させたらスゴかった
        • PythonでOpenCV基礎と衛星データ解析を学べる無料講座が公開 | Ledge.ai

          サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

            PythonでOpenCV基礎と衛星データ解析を学べる無料講座が公開 | Ledge.ai
          • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

            はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

              2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
            • 『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ

              ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』の翻訳も手掛けておられますが、先日直にお話を伺った際は「本書の方が標準ベイズよりもさらに理論的な内容に踏み込んでしっかり書かれていて良い」とのコメントでした。 ということで、早速本書をレビューしていこうと思います。ただ、何分にも全体で888ページもある大著であり、ぶっちゃけ斜め読みするだけでも1ヶ月近くかかるという有様でしたので、内容の理解が不完全であったり誤ったりしている可能性があります。それらの不備を見つけられた際は、何なりとご指摘くだされば幸いです。 本書の概要 第I部 ベイ

                『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ
              • 【統計に明るくない方用】財務省の不適切なデータ解析について|破綻国家研究所

                みなさんは、ニュースなどで「中央省庁が出したデータ」や「グラフ」を見たことがあるかもしれません。 そのデータから「政府の支出と国の成長には関係がない」という話をしているのですが、実はこのグラフの作り方(分析のしかた)に問題があるというお話です。 あくまでも事実に基づいた指摘を行っているものであり、陰謀論を助長する趣旨ではありません。根拠のない憶測や陰謀論には強く反対いたします。 ※ このページでは統計に詳しくない方へ、わかりやすくかみ砕いて何が問題なのかを明らかにしていきます。 したがって、正確性を求める方は上記URL(財務省の不適切なデータ解析について)を参照願います。 1. はじめに昨今、103万円の壁引き上げで財務省に対して 「積極財政をすべきだ」「緊縮財政をすべきだ」などの議論が盛んに行われています。 今回の問題はそこではありません。 財務省主計局が国際通貨基金(IMF)の一次デー

                  【統計に明るくない方用】財務省の不適切なデータ解析について|破綻国家研究所
                • Pythonで学ぶ衛星データ解析基礎 ――環境変化を定量的に把握しよう

                  2022年12月19日紙版発売 2022年12月15日電子版発売 田中康平,田村賢哉,玉置慎吾 著,宮﨑浩之 監修 B5変形判/352ページ 定価3,520円(本体3,200円+税10%) ISBN 978-4-297-13232-3 Gihyo Direct Amazon 楽天ブックス 丸善ジュンク堂書店 ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 本書籍は,Pythonによる衛星データ解析に興味がある初学者に向けた入門書となっています。学校の情報の授業等で利用する際の副教材になることを意識し,衛星データだけでなくデータサイエンスの基礎的な内容も含めました。学校で地球環境やご自身が住んでいる地域がどのように変化し

                    Pythonで学ぶ衛星データ解析基礎 ――環境変化を定量的に把握しよう
                  • 「高等学校における「情報II」のためのデータサイエンス・データ解析入門」|統計学習の指導のために(先生向け)

                    ※1 Pythonコードは、Google Colaboratoryのジュピター・ノートブックの環境で実行することにより動作します。 詳細は、本教材の「参考テキスト」p.159~を参照ください。 ※2「clst.csv」のデータの一部については、自然科学研究機構 国立天文台より2次利用の許可を得て掲載しております。 出典:国立天文台編「理科年表2021」,丸善出版(2020)

                    • 【QGIS】GISソフトでGoogle Earth Engineを操作する【衛星データ解析】 - LabCode

                      QGISとは? QGISは、地理情報システム(GIS)のためのオープンソースソフトウェアで、地理データの閲覧、編集、分析を行うことができます。QGISは多くのプラットフォーム(Windows、MacOS、Linux)に対応しており、商用GISソフトウェアと比較しても多機能でありながら無料で利用することができます。 主な特徴としては以下があげられます。 多機能かつ柔軟性が高い: QGISは、地理データのインポート・エクスポート、地図作成、空間解析など、多くのGISタスクを実行することができます。 オープンソース: ソースコードが公開されているため、コミュニティの支援を受けつつ進化しています。また、カスタマイズや拡張が容易です。 豊富なプラグイン: サードパーティによって開発されたプラグインが多数あり、特定の機能を追加することができます。 GEEプラグインについて 今回紹介するGEEプラグイン

                        【QGIS】GISソフトでGoogle Earth Engineを操作する【衛星データ解析】 - LabCode
                      • 迷いやすい登山道、登山アプリのデータ解析で明らかに 登山道整備に一役

                        登山地図アプリ「YAMAP」を運営するヤマップ(福岡県福岡市)は6月7日、21年に発表した「道迷いしやすい登山道」の一部に標識が設置され、迷う人がいなくなったと発表した。アプリ利用者のデータを分析して分かった。 ヤマップはアプリ内で利用者から寄せられた「迷いやすい」タグ付きの投稿と登山者の軌跡(移動)データを分析し、国内の登山道でとくに迷いやすい地点5カ所を「道迷いしやすい登山道」として21年8月に発表した。同社の働きかけもあり、このうち神奈川県内にある2カ所に標識が設置された。 1カ所は神奈川県と山梨県との県境に位置する西丹沢の大界木山~浦安峠で、21年9月に標識が1本設置された。その後、YAMAPの軌跡データを分析したところ、道を間違える人はゼロになったという。 もう1カ所は神奈川県の丹沢山、櫟山~栗ノ木洞に位置する登山道で、21年の12月に案内標識が設置された。こちらも設置後は道を間

                          迷いやすい登山道、登山アプリのデータ解析で明らかに 登山道整備に一役
                        • データ解析や数学の理解にはイメージが大切|Dr. Kano

                          多変量解析であれ,機械学習であれ,データを解析する道具は数学で鍛えられている.数学というと,数式を見ると蕁麻疹がでるとか,生理的に無理とか,「日常生活で使うことはないから勉強するのは無駄(キリッ」とか,色々な感想があるだろうが,理解するために大切なのは,イメージを持つことだ. 例えば,線形代数や微積分.大学に入学すると,必修科目に指定されていれば,とりあえず履修する.δ-εがどうとか語る教員に,頼むから日本語で話してくれと思う学生もいるだろう.私もそうだった.数学の講義で,勉強したことが何に使えるのかを教える先生はいなかった.だから,数学の重要性なんてわからなかったし,興味も持たなかったし,深く理解することもなかった.もちろん,自分の研究としてデータ解析の応用に取り組むようになり,必死で数学の勉強をしなおすはめになることも想像していなかった.それくらい頭が空っぽだったわけだ. そんな昔と違

                            データ解析や数学の理解にはイメージが大切|Dr. Kano
                          • Rを用いた データ解析の基礎と応用2022

                            Step 3:データを可視化しよう! データ可視化の重要性 ggplot2でデータを眺めよう geom_histogram ヒストグラム geom_density 密度分布 geom_point 散布図 aes(color) 色を表現する facet_wrap, facet_grid グラフを分ける geom_boxplot 箱ヒゲ theme_*** 全体の雰囲気を変える color(aesの外) 線を特定の色にする fill(aesの外) 特定の色で塗りつぶす color(aesの中) 線を値に応じた色にする coord_cartesian 軸の範囲を変える labs タイトルや軸ラベルを書く/書き換える theme 文字の大きさなどを細かく設定 ggsave() 図をファイルとして保存 その他のグラフの描き方を知りたい方は ggplot2公式サイト Jaehyun Songさんの解説

                            • 【GEE】ランダムフォレストで土地被覆分類を行う【衛星データ解析】 - LabCode

                              土地被覆分類とは? 衛星画像や航空写真などのリモートセンシングデータを分析し、地表のさまざまなカバータイプ(例えば、森林、農地、水域、都市地域など)を識別するプロセスです。土地被覆分類は地球環境のモニタリング、土地利用計画、生態系の管理、気候変動の研究など、多くの応用分野で利用されます。 以前の記事で利用した環境省生物多様性センターの植生図をはじめ、国土地理院の地理院地図、産総研のシームレス地質図などが作成され公開されています。 GEEには土地被覆分類を行うためのオブジェクトとしてee.Classifierというものが用意されています。これを利用することで機械学習を利用した土地被覆分類を行うことができます。 ee.Classifierが対応している主要な機械学習モデルは以下の通りです。 決定木(Decision Tree):条件分岐によってグループに分けられる木の構造をしたものです。回帰に

                                【GEE】ランダムフォレストで土地被覆分類を行う【衛星データ解析】 - LabCode
                              • データ解析者の心得: 製造DXの初歩の初歩|Dr. Kano

                                随分と長い間,主にプロセス産業の製造現場のデータを対象として,様々な解析を行ってきた.今でも,いくつかの企業と一緒にデータ解析をしている.特に最近は,製造DX実現を掲げての依頼が多い.これまで,多くの成果をあげてきたし,それ以上に多くの失敗もしてきた.その経験を踏まえて,製造プロセスのデータ解析をしようという技術者に「これだけは伝えておきたい」ということがある.それを「3つの心得」としてまとめておくことにした.もっと詳しく知りたいという人がいれば,私の講演を聞いて下さい. 製造プロセスのデータ解析そもそも,製造現場で制御したいのは製品品質(製品の重要特性)であるが,その計測値・分析値がリアルタイムに得られることは珍しい.多くの場合,抜き取り検査をして,高価な分析装置を使って,長い時間をかけて,分析値を得る.この分析値が出てくるのを待っている間にも生産は継続しており,「あっ,不良品だ!」と気

                                  データ解析者の心得: 製造DXの初歩の初歩|Dr. Kano
                                • 【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita

                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 〜衛星データとは〜 人工衛星データとは、人工衛星を利用した**“リモートセンシング”**によって取得されたデータを指します。 これまで人工衛星データは専門ツールや大容量データ処理基盤が必要なため、利用できる組織は大学機関や一部の専門機関が限られていましたが、昨今のオープンソース・ライブラリの普及やデータ処理基盤のクラウド利用により、一般組織でも気軽に人工衛星データを扱える外部環境が整ってきました。 衛星データを利用することで、これまで取得することができなかった様々な場所・時間・対象の状態をビッグデータで解析することが期待できま

                                    【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita
                                  • データ解析とは?データ分析との違いについても詳しく解説 | AKKODiS(アコーディス)コンサルティング株式会社

                                    近年は、大量のデータを活用して業務のデジタル化に役立てる「データ利活用」という考え方が広がりつつあります。データ利活用を成功させるうえで、重要な手段の一つがデータ解析です。 データ解析と似た用語にデータ分析があり、両者の違いがよく分からないという方もいるでしょう。今回はデータ解析とデータ分析の違いを始め、ビッグデータとの関係性についても解説します。 また、データ解析を行うにあたっては数多くの手法があるため、代表的な手法についても触れています。データ解析を行うメリットや注意点についても解説していますので、今後データ解析について知りたい人から実際に関わっていく人まで、有益な内容となるでしょう。ぜひ最後までお読みいただければ幸いです。

                                      データ解析とは?データ分析との違いについても詳しく解説 | AKKODiS(アコーディス)コンサルティング株式会社
                                    • 【統計検定1級】データ解析のための数理統計入門を読む | とけたろうブログ

                                      ―本書は統計検定の準1級と1級(統計数理,統計応用)の内容にもほぼ対応している―初版第2刷以降の「はじめに」には,この文言が入っています。はたして,これは本当か,本稿では忖度なく一刀両断にしていきます。 本書(以下,青本と呼ぶ)は2023年10月に共立出版から出版されました。現在,著者の久保川達也先生は東大経済学研究科の教授であり,同じ出版社から出ている「現代数理統計学の基礎(以下,白本と呼ぶ)」の著者としても有名ですね。著者の慧眼によって様々な統計手法の本質が審らかにされていく様子は読んでいてとても刺激的であり,青本は私も好きな1冊です。本稿を読んで興味をもった人は,本書をぜひ購入してみてください。 青本は統計検定1級対策として適している 準1級は統計学の初学者や文系出身者でも努力すれば合格できる知識主体の試験であるのに対して,1級は難関国立大学理系2次試験を彷彿とさせるガチの数学力勝負

                                      • 統計学Ⅲ:多変量データ解析法

                                        講座内容 本講座は、日本統計学会と日本行動計量学会の協力のもとに作成され、統計学Ⅰで学んだデータ分析の基礎および統計学Ⅱで学んだ推測統計の方法に引き続き、多変量データ解析手法について学習します。実際のデータは複数個の測定項目からなる多変量データであることが多く、そのようなデータの統計解析手法の学習は、統計手法の現実問題への応用で極めて重要なものです。本講座では、多変量解析法を実際のデータに適用する際の注意点や実際の応用例を中心に学習をします。 第1週:多変量データ解析法の概略と重回帰分析 多変量データ解析法の分類 変量間の関係(因果、回帰、相関) 研究の種類とデータ収集法 重回帰分析のモデル 結果の読み方 結果の解釈 説明変数の選択 ゲスト:選挙予測――未来の政権を知る(鈴木督久) 第2週:主成分分析と因子分析 主成分・因子分析にできること 主成分分析による可視化の原理 主成分分析の二通り

                                          統計学Ⅲ:多変量データ解析法
                                        • 「Pythonのデータ解析処理を最大16倍高速化するソフトウェア」をNECが無償で提供

                                          NECは2023年10月19日、Pythonによるデータ解析処理を高速化するソフトウェア「FireDucks」を無償提供すると発表した。これは新エネルギー・産業技術総合開発機構(NEDO)の支援を受けて開発したもので、NECは「データサイエンティストの業務時間を短縮するだけでなく、省電力化やCO2削減など、環境課題解決にも貢献する」としている。 import文を1行書き換えるだけで利用可能 FireDucksは、テーブルデータの分析で標準的なライブラリ「pandas」を使って作成されたプログラムを高速化する。高速化の度合いについてNECは「平均で約5倍、最大16倍高速化する」としている。高速化実現のポイントは「全コアの並列活用」と「処理の最小化」だ。 pandasは1つのプロセスにつき1コアを使い、並列処理はできないが、FireDucksはマルチコアCPUの全てを利用し、大量のデータを並列

                                            「Pythonのデータ解析処理を最大16倍高速化するソフトウェア」をNECが無償で提供
                                          • データ解析用ライブラリ - Qiita

                                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 皆さん、データ解析やデータ処理にどのライブラリを使用していますか? 恐らく、ほとんどの人がpandasを使用していると思います。 今回は、その他のデータ解析用ライブラリやデータ処理ライブラリについて紹介したいと思います(/・ω・)/ Pandas 言わずと知れたデータ解析用ライブラリですね。 データフレームとシリーズという2つの主要なデータ構造が提供されており、データの読み込みやフィルタリングなど、様々なデータ解析/処理に適しています。 中小規模のデータセットに適しており、大規模なデータの処理はメモリ不足や処理速度の問題からあ

                                              データ解析用ライブラリ - Qiita
                                            • リコー、データビジネスに参入 AIでビッグデータ解析 - 日本経済新聞

                                              リコーが人工知能(AI)を活用したデータビジネスに参入する。クラウド上に保管する顧客企業の文章情報などビッグデータを独自開発の自然言語処理AIが解析、有用なデータとして提供する。6月にも新事業として本格的に立ち上げ、2025年に100億円の売り上げを目指す。 精密大手がAIを用いた顧客企業のデータ解析に踏み切るのは初とみられる。主力事業の複合機は今後大きな成長が見込めない。IT(情報技術)関連事

                                                リコー、データビジネスに参入 AIでビッグデータ解析 - 日本経済新聞
                                              • データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT

                                                ぼくは医学統計学と疫学が専門です。これらのデータ解析には主にRを使います。 かれこれ15年ほどRを使ってきました。当時、Rに関するまとまった情報は『The R Tips』しかありませんでした。時は流れ、今はたくさんR本やサイトがあります。しかし、たくさんありすぎて何を見れば良いのか迷いますよね? そこで、ぼくの経験に基づき、おすすめする有益なR本・サイトをまとめてみました! RとRStudioの環境構築 矢内先生の「RとRStudioのインストール方法の解説」サイト 基礎(網羅的) Rではじめるデータサイエンス RユーザーのためのRStudio実践入門 The R Tips Rクックブック 宋先生の「Rプログラミング入門の入門」サイト データハンドリング特化 宋先生の「dplyr入門 (dplyr 1.0.0対応)」Webページ 宋先生の「tidyr入門」Webページ 可視化特化 Rグラフ

                                                  データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT
                                                • ビッグデータ解析でわかった「研究力」と「科研費・交付金」の関係 ニュースイッチ by 日刊工業新聞社

                                                  内閣府の総合科学技術・イノベーション会議(CSTI、議長=菅義偉首相)は「論文成果には科学研究費助成事業(科研費)や運営費交付金の方が、近年急増した『その他の競争的資金』より効果的だ」と明らかにした。政策立案のエビデンス(根拠)を導く「e―CSTI」のビッグデータ(大量データ)解析で分かった。イノベーション創出や実用化に向けた競争的資金は、論文を指標とする研究力向上には貢献しないことを、再認識する必要がありそうだ。(編集委員・山本佳世子) 2021年度からの第6期科学技術・イノベーション基本計画の議論では「国費の選択と集中によらず研究力が低下している」との声が上がる。そこでCSTI事務局は研究力の指標とされる論文の質と量で分析した。 使ったのは国立大学、国立研究開発法人などの研究や資金獲得のデータを関連づけるウェブツールのe―CSTIだ。財源は18年度で使途が自由な運営費交付金など(学生納

                                                    ビッグデータ解析でわかった「研究力」と「科研費・交付金」の関係 ニュースイッチ by 日刊工業新聞社
                                                  • 「挨拶のない組織」では生まれない、当事者意識や主体的行動 10万人分のデータ解析で分かった、乗り越えるべき“溝”の存在

                                                    関係の質が高いと思考が上がり、行動が上がり、よい結果に 兼清俊光氏:やっぱりこれからは「内発的に動機づいて、コラボレーションと共創を生み出していく」ということがすごく大事になるんです。じゃあすぐに変わるか? というと、変わるわけではないんです。私たちは人々が集団として活動していますから……ご存知の方も多いと思いますけど、成功循環モデルですね。 集まった人々の関係の質が高いと思考が上がり、行動が上がり、結果がよくなる。逆に悪循環もあります。このモデルは。MITのダニエル・キム氏が、1997年に『Systems Thinker』という機関誌に、ペラで1枚でモデルを載せていました。 僕は彼と98年にカンファレンスで会いまして。彼がフリップチャートに(スライドを指して)これを書いたんですね。これがすごく可能性を感じるモデルだったので、それから日本に紹介するようになりました。 2002年になった時、

                                                      「挨拶のない組織」では生まれない、当事者意識や主体的行動 10万人分のデータ解析で分かった、乗り越えるべき“溝”の存在
                                                    • スモールデータを用いたデータ解析・機械学習のアプローチのまとめ

                                                      分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。逆です。精度の高いモデル...

                                                      • ボードゲームのデータ解析その2:BGGの複雑さに関するバイアス(An analysis of board games: Part II - Complexity bias in BGG)|べよ

                                                        本記事は、Dinesh Vatvani氏が2018年12月8日に投稿した「An analysis of board games: Part II - Complexity bias in BGG」の翻訳である。引き続き、BGGのデータ分析の話である。今回の記事は、BGGの上位100ゲームにメスを入れた話となっている。 BGGの上位100ゲームのリストは、私たちボードゲーマーにとって有益な指標となっているし、出版社・ボードゲームデザイナーにとってもステイタスになっている。ただ、上位100ゲームを見ると、複雑なゲーム、いわゆる重ゲーが圧倒的に多い。裏を返せば、少なくとも、BGG上の評価を得るためには、重ゲーを製作する必要があるように思えてしまう。 このように、BGGには複雑なゲームを好む傾向があるのか(複雑さバイアス)ということをデータから分析してみようというのが本記事の内容である。その上で、

                                                          ボードゲームのデータ解析その2:BGGの複雑さに関するバイアス(An analysis of board games: Part II - Complexity bias in BGG)|べよ
                                                        • カフェ経営 初心者 どの分野が自分に合うか データー解析

                                                          ドリンクのみ提供であれば、今流行りの、バナナジュース専門店、フルーツジュース専門店など 王道でいけば、コーヒー専門店。エスプレッソバーなど 後は、テイクアウトのみ、店内のみ、テイクアウトと店内両方どれかの営業になります。(さらに、テイクアウトカップのみ、店内用グラス、ソーサーのみ、店内用グラス、ソーサーとテイクアウトカップ両方の選択になります。) ドリンクとスイーツを提供の場合、一番イメージしやすいのは、日本で一番多くの店舗数をもつスターバックス(テイクアウト用のサンドイッチはありますが、お食事からは省かせていただきます。) 純喫茶(昭和のレトロ感がする、マスターのみで営業もしくは、夫婦で営業している。) パンケーキ専門店、パフェ専門店、ケーキ屋さんなどスイーツ重視のお店など。 メインの選択 ・ドリンクをメインで提供、ドリンクにはこだわりがあり、お客様全員がドリンクを飲みに来るスタイル。ス

                                                            カフェ経営 初心者 どの分野が自分に合うか データー解析
                                                          • 「新しい生活様式」での商圏はどこにある? スマホ位置情報の「人流ビッグデータ」解析AIツールで飲食店などを支援【地図と位置情報】

                                                              「新しい生活様式」での商圏はどこにある? スマホ位置情報の「人流ビッグデータ」解析AIツールで飲食店などを支援【地図と位置情報】
                                                            • MicrosoftのAIアシスタント「Microsoft 365 Copilot」に推論エージェント「Researcher」と「Analyst」が追加される、OpenAIのo3ベースでデータ解析や文献調査が可能

                                                              MicrosoftはサブスクリプションサービスのMicrosoft 365の一部として、OpenAIのAIをベースにしたAIアシスタントであるMicrosoft 365 Copilotを提供しています。現地時間の2025年3月25日、Microsoft 365 Copilotに新しい業務用推論エージェントの「Researcher」と「Analyst」を追加するとMicrosoftが発表しました。 Introducing Researcher and Analyst in Microsoft 365 Copilot | Microsoft 365 Blog https://www.microsoft.com/en-us/microsoft-365/blog/2025/03/25/introducing-researcher-and-analyst-in-microsoft-365-copil

                                                                MicrosoftのAIアシスタント「Microsoft 365 Copilot」に推論エージェント「Researcher」と「Analyst」が追加される、OpenAIのo3ベースでデータ解析や文献調査が可能
                                                              • SOLS(ソルス)の評判!実績から利回りや投資期間をデータ解析

                                                                登録や投資でAmazonギフト券や楽天ポイントなど各種ポイントがザクザク貯まる案件も紹介中! どうせなら、お得に登録や投資をしていきましょう👍 キャンペーン一覧はこちら SOLS(ソルス)の評判! 実績から利回りや投資期間をデータ解析SOLS(ソルス)の評判は? 過去案件を解析し、強みと弱みを解説! また、投資するべき案件条件も大公開しています! この記事でわかること ・SOLS(ソルス)とは? ・メリットや特徴 ・デメリットとリスク ・投資したいファンド条件 ・SOLS(ソルス)のファンド実績 ・怪しい・怪しいの評判や口コミの真相 ・キャンペーン情報 【最新のファンド情報】 SOLS第9号案件:東京都渋谷区恵比寿 ・年利6% +投資額の2%分のアマギフ ・投資期間12ヶ月 ・抽選案件 ・2024年11月22日~12月5日 〜ワンポイント解説〜 借入併用型で 借入金: 約60.87% 優

                                                                  SOLS(ソルス)の評判!実績から利回りや投資期間をデータ解析
                                                                • 実験データ解析再入門:論文を「フェイクニュース」にしないために

                                                                  脳科学若手の会ワークショップ(2022.3.13) 神谷之康(京都大学・ATR) 概要 概念や仕組みをよく理解しないまま実験データの解析で使っている統計手法はありませんか。神経科学では大規模で多様なデータ取得が可能となり、統計解析の重要性が増しています。昔なら比較的無害だった統計の誤用が致…

                                                                    実験データ解析再入門:論文を「フェイクニュース」にしないために
                                                                  • 三井物産、暗号化したままデータ解析 AI活用 【イブニングスクープ】 - 日本経済新聞

                                                                    三井物産はビッグデータを暗号化し、他人が解読できない状態にして人工知能(AI)が解析する「秘密計算」のサービスを始める。外部漏洩が許されない個人情報や企業の秘密データを依頼主が暗号化してから預かり、AIで分析して依頼主に結果を戻す。これまで企業や研究機関などが漏洩に配慮して分析に踏み切れなかったデータにも、活用の余地が広がる。秘密計算はデータそのものに暗号の鍵をかけたり、複数に切り分けたりして

                                                                      三井物産、暗号化したままデータ解析 AI活用 【イブニングスクープ】 - 日本経済新聞
                                                                    • 【独自】熱中症で白内障の発症率4倍に 260万人分の診察データ解析

                                                                      28日も各地で猛暑日を観測しています。そうしたなか、熱中症にかかったことがある人は、将来、白内障を発症する確率が4倍ほど高まることが分かりました。 金沢医科大学の佐々木洋主任教授らは、およそ260万人分の医療機関の診察データから、熱中症にかかった後に白内障を発症した人の割合を調べました。 その結果、熱中症にかかったことがない人と比べて、5年後に白内障を発症する確率が4倍ほど高まることが分かりました。 金沢医科大 眼科学講座 佐々木洋主任教授:「体内の温度も上がることで目の中の温度そのものが上がって、温度そのものの影響として白内障のリスクが上がっている。“核白内障”というすごい多いタイプだが、水晶体が濁るので(最終的に)目の奥に光が入らなくなるので、ほとんど見えなくなってしまう」 年齢別でみると、20代からリスクが上昇し始め、60代では5倍近くになっていました。 金沢医科大 眼科学講座 佐々

                                                                        【独自】熱中症で白内障の発症率4倍に 260万人分の診察データ解析
                                                                      • 財務省のデータ解析が不適切だと批判しているデータサイエンティストの外れ値の処理が良くない件

                                                                        財務省がOECD諸国の一人あたり実質GDP成長率を歳出拡大率に単回帰をかけて、両者に「相関が無い」と主張したことに対して、本業はデータサイエンティストとのことのhatankokka氏がデータ解析が不適切だと批判し、外れ値を除外した異なる分析を提案している*1。 しかし、どうもhatankokka氏は、財務省の意図をよく理解していない気がするし、また、代わりに提案している分析も適切とは思えない。問題に気づいていない人々がいるので指摘しておきたい。 1. hatankokka氏のデータ分析の問題点 hatankokka氏の分析から見ていこう。四分位と中央絶対偏差で外れ値をアイルランドの値だと特定し、外れ値を除外してピアソン相関を見ると0.429になり、統計的に有意な値になると言うものだ。そして統計的に有意だから相関があると主張している。 しかし、アイルランドを除外するのは問題がある。アイルラン

                                                                          財務省のデータ解析が不適切だと批判しているデータサイエンティストの外れ値の処理が良くない件
                                                                        • データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!)

                                                                          分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 データ解析・機械学習でモデルを構築し始める際のサンプル数の目安について、もちろんモデルを構築する時には、可能な限り多くのサンプルを用いることが望ましいです。多くのサンプルを用いることで、サンプルの変化に強い (例えばサンプルが一つ追加されたり一つ削除されたりしても結果の変わりにくい) 頑健なモデルを構築できる可能性が高まります。頑健なモデルにより、より妥当な x の設計やモデルの解釈が可能になります。 ただし、サンプルを集め

                                                                            データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!)
                                                                          • 暗号技術とAIの融合 個人情報守りつつ分散データ解析が可能に 政府のビッグデータ利活用を後押し:東京新聞 TOKYO Web

                                                                            政府は成長戦略としてビッグデータの利活用を掲げるが、個人情報保護との両立が欠かせない。国立研究開発法人「情報通信研究機構(NICT)」のサイバーセキュリティ研究所では、個人情報を守りつつ、複数の組織が持つ情報を統合して解析する技術を開発。銀行間に分散する取引データを活用し、ニセ電話詐欺などの検知システムの精度向上に役立てている。研究所の盛合志帆所長に仕組みを聞いた。(小嶋麻友美)

                                                                              暗号技術とAIの融合 個人情報守りつつ分散データ解析が可能に 政府のビッグデータ利活用を後押し:東京新聞 TOKYO Web
                                                                            • 化学のためのPythonによるデータ解析・機械学習入門 | Chem-Station (ケムステ)

                                                                              概要 本書は、化学・化学工学分野でPythonを使って機械学習を行うための入門書です。 これまでに蓄積してきた実験/製造データをデータ解析・機械学習を用いて分析することで、いままでとはまったく別のアプローチで材料開発を加速させたり、プロセス管理を効率化・安定化させたりすることができます。なぜなら、実験や製造データは、目に見えない、研究者・技術者の知識・知見・経験・勘の宝庫だからです。そして、データ解析・機械学習を用いることで、これらを目に見える形にすることができるからです。 読者が一から実践できるよう、Pythonのインストール方法、データ解析・機械学習の基本理論から、材料設計、分子設計、プロセス管理について実際にサンプルプログラムとサンプルデータセットを使った実践までを丁寧に解説しています。 (引用:オーム社HP) 対象者 ・化学系、化学工学系でデータ解析や機械学習に挑戦したい人。 ・ケ

                                                                              • 東大、企業データ解析の新会社 価格設定など助言 - 日本経済新聞

                                                                                東京大学は民間企業が持つデータを解析し、価格設定などを助言する新会社を8月初旬に立ち上げた。これまでも研究者が個別に分析などの作業を受けるケースがあったが、株式会社の形態をとり、活動の自由度を高めて企業ニーズに応える。政府や地方自治体による補助金などの政策効果を測る事業も柱の1つに位置づける。東大は1.5億円を出資して株式会社「東京大学エコノミックコンサルティング」を設立しており、月内に業務の

                                                                                  東大、企業データ解析の新会社 価格設定など助言 - 日本経済新聞
                                                                                • 「挨拶のない組織」では生まれない、当事者意識や主体的行動 10万人分のデータ解析で分かった、乗り越えるべき“溝”の存在 | ログミーBusiness

                                                                                  関係の質が高いと思考が上がり、行動が上がり、よい結果に兼清俊光氏:やっぱりこれからは「内発的に動機づいて、コラボレーションと共創を生み出していく」ということがすごく大事になるんです。じゃあすぐに変わるか? というと、変わるわけではないんです。私たちは人々が集団として活動していますから……ご存知の方も多いと思いますけど、成功循環モデルですね。 集まった人々の関係の質が高いと思考が上がり、行動が上がり、結果がよくなる。逆に悪循環もあります。このモデルは。MITのダニエル・キム氏が、1997年に『Systems Thinker』という機関誌に、ペラで1枚でモデルを載せていました。 僕は彼と98年にカンファレンスで会いまして。彼がフリップチャートに(スライドを指して)これを書いたんですね。これがすごく可能性を感じるモデルだったので、それから日本に紹介するようになりました。 2002年になった時、彼

                                                                                    「挨拶のない組織」では生まれない、当事者意識や主体的行動 10万人分のデータ解析で分かった、乗り越えるべき“溝”の存在 | ログミーBusiness

                                                                                  新着記事