並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 117件

新着順 人気順

データ解析の検索結果1 - 40 件 / 117件

  • データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary

    (2019/10/12追記 データ解析のプログラムもGitHubで公開しました) (2019/10/15追記 会員の見分け方に誤りがありました。本文中では"非会員"と"有料会員"に分けると述べていますが、正確には"非会員・無料会員"と"有料会員"に分かれています。以後の図・文章は脳内で変換していただけると幸いです。詳細は https://anond.hatelabo.jp/20191011180237 で他の方が調べてくださっています) はじめに この記事は、藍屋えん氏( @u874072e )の以下のブログに触発されて、個人的に行った一連のデータ解析をまとめたものです。 clean-copy-of-onenote.hatenablog.com 上のブログでは、食べログ3.8問題と称される問題、 「評価3.8以上の店舗は年会費を払わなければ評価を3.6に下げられる」 との説を食べログの店舗

      データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary
    • データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai

      サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

        データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai
      • ChatGPT活用を激震させる新機能「Code Interpreter」にNetflixをデータ解析させたらスゴかった

        コード・インタープリターはChatGPTの有料版「ChatGPT Plus」で、GPT-4の付加機能として呼び出せる。 画像:筆者によるスクリーンショット ChatGPTの有料版である「ChatGPT Plus」(月額20ドル)には、7月初めから「Code Interpreter(コード・インタープリター)」という機能が追加された。 この機能が画期的だとして、一時ネットでは大いに話題になった。これまでは面倒だった「データ集計」などを、チャットの命令だけで実行できるからだ。 データ集計は、Excelなどの表計算ソフトやPythonなどのデータ処理に強いプログラミング言語で処理することが多い。 しかしコード・インタープリターでは、それらを使う必要はほとんどなく、データさえ用意できればいい。さまざまな手間がほぼゼロになり、ChatGPT任せにできる。 そうはいってもピンと来ない人も多いはず。そこ

          ChatGPT活用を激震させる新機能「Code Interpreter」にNetflixをデータ解析させたらスゴかった
        • PythonでOpenCV基礎と衛星データ解析を学べる無料講座が公開 | Ledge.ai

          サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

            PythonでOpenCV基礎と衛星データ解析を学べる無料講座が公開 | Ledge.ai
          • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

            はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

              2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
            • Pythonで学ぶ衛星データ解析基礎 ――環境変化を定量的に把握しよう

              2022年12月19日紙版発売 2022年12月15日電子版発売 田中康平,田村賢哉,玉置慎吾 著,宮﨑浩之 監修 B5変形判/352ページ 定価3,520円(本体3,200円+税10%) ISBN 978-4-297-13232-3 Gihyo Direct Amazon 楽天ブックス 丸善ジュンク堂書店 ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 本書籍は,Pythonによる衛星データ解析に興味がある初学者に向けた入門書となっています。学校の情報の授業等で利用する際の副教材になることを意識し,衛星データだけでなくデータサイエンスの基礎的な内容も含めました。学校で地球環境やご自身が住んでいる地域がどのように変化し

                Pythonで学ぶ衛星データ解析基礎 ――環境変化を定量的に把握しよう
              • 『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ

                ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』の翻訳も手掛けておられますが、先日直にお話を伺った際は「本書の方が標準ベイズよりもさらに理論的な内容に踏み込んでしっかり書かれていて良い」とのコメントでした。 ということで、早速本書をレビューしていこうと思います。ただ、何分にも全体で888ページもある大著であり、ぶっちゃけ斜め読みするだけでも1ヶ月近くかかるという有様でしたので、内容の理解が不完全であったり誤ったりしている可能性があります。それらの不備を見つけられた際は、何なりとご指摘くだされば幸いです。 本書の概要 第I部 ベイ

                  『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ
                • 「高等学校における「情報II」のためのデータサイエンス・データ解析入門」|統計学習の指導のために(先生向け)

                  ※1 Pythonコードは、Google Colaboratoryのジュピター・ノートブックの環境で実行することにより動作します。 詳細は、本教材の「参考テキスト」p.159~を参照ください。 ※2「clst.csv」のデータの一部については、自然科学研究機構 国立天文台より2次利用の許可を得て掲載しております。 出典:国立天文台編「理科年表2021」,丸善出版(2020)

                  • 【QGIS】GISソフトでGoogle Earth Engineを操作する【衛星データ解析】 - LabCode

                    QGISとは? QGISは、地理情報システム(GIS)のためのオープンソースソフトウェアで、地理データの閲覧、編集、分析を行うことができます。QGISは多くのプラットフォーム(Windows、MacOS、Linux)に対応しており、商用GISソフトウェアと比較しても多機能でありながら無料で利用することができます。 主な特徴としては以下があげられます。 多機能かつ柔軟性が高い: QGISは、地理データのインポート・エクスポート、地図作成、空間解析など、多くのGISタスクを実行することができます。 オープンソース: ソースコードが公開されているため、コミュニティの支援を受けつつ進化しています。また、カスタマイズや拡張が容易です。 豊富なプラグイン: サードパーティによって開発されたプラグインが多数あり、特定の機能を追加することができます。 GEEプラグインについて 今回紹介するGEEプラグイン

                      【QGIS】GISソフトでGoogle Earth Engineを操作する【衛星データ解析】 - LabCode
                    • 「ルナルナ」のビッグデータ解析で月経周期に新事実

                      「生理前になるとだるくて、やる気が出ない」「旅行中、予定外に生理が来てしまった」など、女性なら誰でも月経周期に振り回された経験を持つのでは。妊娠を望む、あるいは避妊したいといった場合にも、月経周期が問題となる。つまり、月経周期についての正しい知識や情報は、女性が「自分らしい生活や人生」を送る上で不可欠といえるが、驚くべきことに「月経周期に関する医学的な知見」は60年前からアップデートされていないのだという。 こうした背景があり、国立成育医療研究センター分子内分泌研究部室長の鳴海覚志氏、同社会医学研究部室長の森崎菜穂氏らは、女性の健康情報サービス「ルナルナ」を手掛けるエムティーアイと共同で調査研究を進め、1月23日に記者説明会を開いてその解析結果を発表した。 2000年にKDDIのau公式サイトとしてサービスを開始した「ルナルナ」。そのインストール数は、延べ1400万に上るという。アプリを使

                        「ルナルナ」のビッグデータ解析で月経周期に新事実
                      • 迷いやすい登山道、登山アプリのデータ解析で明らかに 登山道整備に一役

                        登山地図アプリ「YAMAP」を運営するヤマップ(福岡県福岡市)は6月7日、21年に発表した「道迷いしやすい登山道」の一部に標識が設置され、迷う人がいなくなったと発表した。アプリ利用者のデータを分析して分かった。 ヤマップはアプリ内で利用者から寄せられた「迷いやすい」タグ付きの投稿と登山者の軌跡(移動)データを分析し、国内の登山道でとくに迷いやすい地点5カ所を「道迷いしやすい登山道」として21年8月に発表した。同社の働きかけもあり、このうち神奈川県内にある2カ所に標識が設置された。 1カ所は神奈川県と山梨県との県境に位置する西丹沢の大界木山~浦安峠で、21年9月に標識が1本設置された。その後、YAMAPの軌跡データを分析したところ、道を間違える人はゼロになったという。 もう1カ所は神奈川県の丹沢山、櫟山~栗ノ木洞に位置する登山道で、21年の12月に案内標識が設置された。こちらも設置後は道を間

                          迷いやすい登山道、登山アプリのデータ解析で明らかに 登山道整備に一役
                        • データ解析や数学の理解にはイメージが大切|Dr. Kano

                          多変量解析であれ,機械学習であれ,データを解析する道具は数学で鍛えられている.数学というと,数式を見ると蕁麻疹がでるとか,生理的に無理とか,「日常生活で使うことはないから勉強するのは無駄(キリッ」とか,色々な感想があるだろうが,理解するために大切なのは,イメージを持つことだ. 例えば,線形代数や微積分.大学に入学すると,必修科目に指定されていれば,とりあえず履修する.δ-εがどうとか語る教員に,頼むから日本語で話してくれと思う学生もいるだろう.私もそうだった.数学の講義で,勉強したことが何に使えるのかを教える先生はいなかった.だから,数学の重要性なんてわからなかったし,興味も持たなかったし,深く理解することもなかった.もちろん,自分の研究としてデータ解析の応用に取り組むようになり,必死で数学の勉強をしなおすはめになることも想像していなかった.それくらい頭が空っぽだったわけだ. そんな昔と違

                            データ解析や数学の理解にはイメージが大切|Dr. Kano
                          • Rを用いた データ解析の基礎と応用2022

                            Step 3:データを可視化しよう! データ可視化の重要性 ggplot2でデータを眺めよう geom_histogram ヒストグラム geom_density 密度分布 geom_point 散布図 aes(color) 色を表現する facet_wrap, facet_grid グラフを分ける geom_boxplot 箱ヒゲ theme_*** 全体の雰囲気を変える color(aesの外) 線を特定の色にする fill(aesの外) 特定の色で塗りつぶす color(aesの中) 線を値に応じた色にする coord_cartesian 軸の範囲を変える labs タイトルや軸ラベルを書く/書き換える theme 文字の大きさなどを細かく設定 ggsave() 図をファイルとして保存 その他のグラフの描き方を知りたい方は ggplot2公式サイト Jaehyun Songさんの解説

                            • 【GEE】ランダムフォレストで土地被覆分類を行う【衛星データ解析】 - LabCode

                              土地被覆分類とは? 衛星画像や航空写真などのリモートセンシングデータを分析し、地表のさまざまなカバータイプ(例えば、森林、農地、水域、都市地域など)を識別するプロセスです。土地被覆分類は地球環境のモニタリング、土地利用計画、生態系の管理、気候変動の研究など、多くの応用分野で利用されます。 以前の記事で利用した環境省生物多様性センターの植生図をはじめ、国土地理院の地理院地図、産総研のシームレス地質図などが作成され公開されています。 GEEには土地被覆分類を行うためのオブジェクトとしてee.Classifierというものが用意されています。これを利用することで機械学習を利用した土地被覆分類を行うことができます。 ee.Classifierが対応している主要な機械学習モデルは以下の通りです。 決定木(Decision Tree):条件分岐によってグループに分けられる木の構造をしたものです。回帰に

                                【GEE】ランダムフォレストで土地被覆分類を行う【衛星データ解析】 - LabCode
                              • データ解析者の心得: 製造DXの初歩の初歩|Dr. Kano

                                随分と長い間,主にプロセス産業の製造現場のデータを対象として,様々な解析を行ってきた.今でも,いくつかの企業と一緒にデータ解析をしている.特に最近は,製造DX実現を掲げての依頼が多い.これまで,多くの成果をあげてきたし,それ以上に多くの失敗もしてきた.その経験を踏まえて,製造プロセスのデータ解析をしようという技術者に「これだけは伝えておきたい」ということがある.それを「3つの心得」としてまとめておくことにした.もっと詳しく知りたいという人がいれば,私の講演を聞いて下さい. 製造プロセスのデータ解析そもそも,製造現場で制御したいのは製品品質(製品の重要特性)であるが,その計測値・分析値がリアルタイムに得られることは珍しい.多くの場合,抜き取り検査をして,高価な分析装置を使って,長い時間をかけて,分析値を得る.この分析値が出てくるのを待っている間にも生産は継続しており,「あっ,不良品だ!」と気

                                  データ解析者の心得: 製造DXの初歩の初歩|Dr. Kano
                                • 【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita

                                  はじめに 〜衛星データとは〜 人工衛星データとは、人工衛星を利用した“リモートセンシング”によって取得されたデータを指します。 これまで人工衛星データは専門ツールや大容量データ処理基盤が必要なため、利用できる組織は大学機関や一部の専門機関が限られていましたが、昨今のオープンソース・ライブラリの普及やデータ処理基盤のクラウド利用により、一般組織でも気軽に人工衛星データを扱える外部環境が整ってきました。 衛星データを利用することで、これまで取得することができなかった様々な場所・時間・対象の状態をビッグデータで解析することが期待できます。 そこで本記事では、どの様にデータを扱うのかを、衛星データ解析の専門ツールを利用せず(最も身近なツールの一つであるpythonを利用)、誰でも気軽に試すために無償で利用方法を紹介していきたいと思います。 また、今回はビジネスや社会実装に利用イメージが沸きやすい衛

                                    【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita
                                  • 【統計検定1級】データ解析のための数理統計入門を読む | とけたろうブログ

                                    ―本書は統計検定の準1級と1級(統計数理,統計応用)の内容にもほぼ対応している―初版第2刷以降の「はじめに」には,この文言が入っています。はたして,これは本当か,本稿では忖度なく一刀両断にしていきます。 本書(以下,青本と呼ぶ)は2023年10月に共立出版から出版されました。現在,著者の久保川達也先生は東大経済学研究科の教授であり,同じ出版社から出ている「現代数理統計学の基礎(以下,白本と呼ぶ)」の著者としても有名ですね。著者の慧眼によって様々な統計手法の本質が審らかにされていく様子は読んでいてとても刺激的であり,青本は私も好きな1冊です。本稿を読んで興味をもった人は,本書をぜひ購入してみてください。 青本は統計検定1級対策として適している 準1級は統計学の初学者や文系出身者でも努力すれば合格できる知識主体の試験であるのに対して,1級は難関国立大学理系2次試験を彷彿とさせるガチの数学力勝負

                                    • Juliaは、データ解析やAIの分野で、Python人気を追い越すでしょうか?どのぐらい時間を要するでしょうか? - Quora

                                      期待を込めて。 近い将来(2〜3年以内)、少なくとも、Pythonと並行して普通に使われるようにはなるとは思っています。 私は、5年くらい前、v0.3のころから使ってますが、最近は、ネット上ではないリアルで使っている人には出会うことが増えてきました。多分、着実にユーザー数が増えてきているんだろうとは思っています。 Juliaは、Python(+numpy)よりも簡単な言語なので、Pythonできる人なら1日で学べます。Matlabからの移行はもっと簡単で半日もあれば学べます。(ただし、本当に高速なプログラムを書きたい場合には、それなりの知識が必要です。具体的には、C++のtemplateの知識があると、型がどう決まって、その結果、どう書くと高速になるのかが、わかるでしょう。) まずは、データの前処理、後処理に使うことからでしょうか。メインの処理は、普通にPythonで書くか、PyCall.

                                      • データ解析とは?データ分析との違いについても詳しく解説 | AKKODiS(アコーディス)コンサルティング株式会社

                                        近年は、大量のデータを活用して業務のデジタル化に役立てる「データ利活用」という考え方が広がりつつあります。データ利活用を成功させるうえで、重要な手段の一つがデータ解析です。 データ解析と似た用語にデータ分析があり、両者の違いがよく分からないという方もいるでしょう。今回はデータ解析とデータ分析の違いを始め、ビッグデータとの関係性についても解説します。 また、データ解析を行うにあたっては数多くの手法があるため、代表的な手法についても触れています。データ解析を行うメリットや注意点についても解説していますので、今後データ解析について知りたい人から実際に関わっていく人まで、有益な内容となるでしょう。ぜひ最後までお読みいただければ幸いです。

                                          データ解析とは?データ分析との違いについても詳しく解説 | AKKODiS(アコーディス)コンサルティング株式会社
                                        • 統計学Ⅲ:多変量データ解析法

                                          講座内容 本講座は、日本統計学会と日本行動計量学会の協力のもとに作成され、統計学Ⅰで学んだデータ分析の基礎および統計学Ⅱで学んだ推測統計の方法に引き続き、多変量データ解析手法について学習します。実際のデータは複数個の測定項目からなる多変量データであることが多く、そのようなデータの統計解析手法の学習は、統計手法の現実問題への応用で極めて重要なものです。本講座では、多変量解析法を実際のデータに適用する際の注意点や実際の応用例を中心に学習をします。 第1週:多変量データ解析法の概略と重回帰分析 多変量データ解析法の分類 変量間の関係(因果、回帰、相関) 研究の種類とデータ収集法 重回帰分析のモデル 結果の読み方 結果の解釈 説明変数の選択 ゲスト:選挙予測――未来の政権を知る(鈴木督久) 第2週:主成分分析と因子分析 主成分・因子分析にできること 主成分分析による可視化の原理 主成分分析の二通り

                                            統計学Ⅲ:多変量データ解析法
                                          • 「Pythonのデータ解析処理を最大16倍高速化するソフトウェア」をNECが無償で提供

                                            NECは2023年10月19日、Pythonによるデータ解析処理を高速化するソフトウェア「FireDucks」を無償提供すると発表した。これは新エネルギー・産業技術総合開発機構(NEDO)の支援を受けて開発したもので、NECは「データサイエンティストの業務時間を短縮するだけでなく、省電力化やCO2削減など、環境課題解決にも貢献する」としている。 import文を1行書き換えるだけで利用可能 FireDucksは、テーブルデータの分析で標準的なライブラリ「pandas」を使って作成されたプログラムを高速化する。高速化の度合いについてNECは「平均で約5倍、最大16倍高速化する」としている。高速化実現のポイントは「全コアの並列活用」と「処理の最小化」だ。 関連記事 無料で「実践的なデータサイエンス」を学べるオンライン演習を開講 総務省 総務省は、データサイエンスのオンライン講座「社会人のための

                                              「Pythonのデータ解析処理を最大16倍高速化するソフトウェア」をNECが無償で提供
                                            • データ解析用ライブラリ - Qiita

                                              はじめに 皆さん、データ解析やデータ処理にどのライブラリを使用していますか? 恐らく、ほとんどの人がpandasを使用していると思います。 今回は、その他のデータ解析用ライブラリやデータ処理ライブラリについて紹介したいと思います(/・ω・)/ Pandas 言わずと知れたデータ解析用ライブラリですね。 データフレームとシリーズという2つの主要なデータ構造が提供されており、データの読み込みやフィルタリングなど、様々なデータ解析/処理に適しています。 中小規模のデータセットに適しており、大規模なデータの処理はメモリ不足や処理速度の問題からあまり向いていません。 Numpy こちらも言わずと知れたライブラリです。 高速な多次元配列の処理とベクトル化演算のためのライブラリであり、配列の生成やブロードキャスティングなどの多彩な操作を提供しています。 線形代数や乱数生成、フーリエ変換などの科学技術計算

                                                データ解析用ライブラリ - Qiita
                                              • 「挨拶のない組織」では生まれない、当事者意識や主体的行動 10万人分のデータ解析で分かった、乗り越えるべき“溝”の存在

                                                関係の質が高いと思考が上がり、行動が上がり、よい結果に 兼清俊光氏:やっぱりこれからは「内発的に動機づいて、コラボレーションと共創を生み出していく」ということがすごく大事になるんです。じゃあすぐに変わるか? というと、変わるわけではないんです。私たちは人々が集団として活動していますから……ご存知の方も多いと思いますけど、成功循環モデルですね。 集まった人々の関係の質が高いと思考が上がり、行動が上がり、結果がよくなる。逆に悪循環もあります。このモデルは。MITのダニエル・キム氏が、1997年に『Systems Thinker』という機関誌に、ペラで1枚でモデルを載せていました。 僕は彼と98年にカンファレンスで会いまして。彼がフリップチャートに(スライドを指して)これを書いたんですね。これがすごく可能性を感じるモデルだったので、それから日本に紹介するようになりました。 2002年になった時、

                                                  「挨拶のない組織」では生まれない、当事者意識や主体的行動 10万人分のデータ解析で分かった、乗り越えるべき“溝”の存在
                                                • リコー、データビジネスに参入 AIでビッグデータ解析 - 日本経済新聞

                                                  リコーが人工知能(AI)を活用したデータビジネスに参入する。クラウド上に保管する顧客企業の文章情報などビッグデータを独自開発の自然言語処理AIが解析、有用なデータとして提供する。6月にも新事業として本格的に立ち上げ、2025年に100億円の売り上げを目指す。 精密大手がAIを用いた顧客企業のデータ解析に踏み切るのは初とみられる。主力事業の複合機は今後大きな成長が見込めない。IT(情報技術)関連事

                                                    リコー、データビジネスに参入 AIでビッグデータ解析 - 日本経済新聞
                                                  • データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT

                                                    ぼくは医学統計学と疫学が専門です。これらのデータ解析には主にRを使います。 かれこれ15年ほどRを使ってきました。当時、Rに関するまとまった情報は『The R Tips』しかありませんでした。時は流れ、今はたくさんR本やサイトがあります。しかし、たくさんありすぎて何を見れば良いのか迷いますよね? そこで、ぼくの経験に基づき、おすすめする有益なR本・サイトをまとめてみました! RとRStudioの環境構築 矢内先生の「RとRStudioのインストール方法の解説」サイト 基礎(網羅的) Rではじめるデータサイエンス RユーザーのためのRStudio実践入門 The R Tips Rクックブック 宋先生の「Rプログラミング入門の入門」サイト データハンドリング特化 宋先生の「dplyr入門 (dplyr 1.0.0対応)」Webページ 宋先生の「tidyr入門」Webページ 可視化特化 Rグラフ

                                                      データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT
                                                    • ビッグデータ解析でわかった「研究力」と「科研費・交付金」の関係 ニュースイッチ by 日刊工業新聞社

                                                      内閣府の総合科学技術・イノベーション会議(CSTI、議長=菅義偉首相)は「論文成果には科学研究費助成事業(科研費)や運営費交付金の方が、近年急増した『その他の競争的資金』より効果的だ」と明らかにした。政策立案のエビデンス(根拠)を導く「e―CSTI」のビッグデータ(大量データ)解析で分かった。イノベーション創出や実用化に向けた競争的資金は、論文を指標とする研究力向上には貢献しないことを、再認識する必要がありそうだ。(編集委員・山本佳世子) 2021年度からの第6期科学技術・イノベーション基本計画の議論では「国費の選択と集中によらず研究力が低下している」との声が上がる。そこでCSTI事務局は研究力の指標とされる論文の質と量で分析した。 使ったのは国立大学、国立研究開発法人などの研究や資金獲得のデータを関連づけるウェブツールのe―CSTIだ。財源は18年度で使途が自由な運営費交付金など(学生納

                                                        ビッグデータ解析でわかった「研究力」と「科研費・交付金」の関係 ニュースイッチ by 日刊工業新聞社
                                                      • スモールデータを用いたデータ解析・機械学習のアプローチのまとめ

                                                        分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。 逆です。 精度の高いモ...

                                                        • ボードゲームのデータ解析その2:BGGの複雑さに関するバイアス(An analysis of board games: Part II - Complexity bias in BGG)|べよ

                                                          本記事は、Dinesh Vatvani氏が2018年12月8日に投稿した「An analysis of board games: Part II - Complexity bias in BGG」の翻訳である。引き続き、BGGのデータ分析の話である。今回の記事は、BGGの上位100ゲームにメスを入れた話となっている。 BGGの上位100ゲームのリストは、私たちボードゲーマーにとって有益な指標となっているし、出版社・ボードゲームデザイナーにとってもステイタスになっている。ただ、上位100ゲームを見ると、複雑なゲーム、いわゆる重ゲーが圧倒的に多い。裏を返せば、少なくとも、BGG上の評価を得るためには、重ゲーを製作する必要があるように思えてしまう。 このように、BGGには複雑なゲームを好む傾向があるのか(複雑さバイアス)ということをデータから分析してみようというのが本記事の内容である。その上で、

                                                            ボードゲームのデータ解析その2:BGGの複雑さに関するバイアス(An analysis of board games: Part II - Complexity bias in BGG)|べよ
                                                          • カフェ経営 初心者 どの分野が自分に合うか データー解析

                                                            ドリンクのみ提供であれば、今流行りの、バナナジュース専門店、フルーツジュース専門店など 王道でいけば、コーヒー専門店。エスプレッソバーなど 後は、テイクアウトのみ、店内のみ、テイクアウトと店内両方どれかの営業になります。(さらに、テイクアウトカップのみ、店内用グラス、ソーサーのみ、店内用グラス、ソーサーとテイクアウトカップ両方の選択になります。) ドリンクとスイーツを提供の場合、一番イメージしやすいのは、日本で一番多くの店舗数をもつスターバックス(テイクアウト用のサンドイッチはありますが、お食事からは省かせていただきます。) 純喫茶(昭和のレトロ感がする、マスターのみで営業もしくは、夫婦で営業している。) パンケーキ専門店、パフェ専門店、ケーキ屋さんなどスイーツ重視のお店など。 メインの選択 ・ドリンクをメインで提供、ドリンクにはこだわりがあり、お客様全員がドリンクを飲みに来るスタイル。ス

                                                              カフェ経営 初心者 どの分野が自分に合うか データー解析
                                                            • 闇のExcelに対する防衛術 - ★データ解析備忘録★

                                                              この記事は R Advent Calendar 2019 の25日目の記事です。 Rユーザにとっての闇、それはデータソースとして渡されるエクセルファイルでしょう(異論は認める)。 tidyverseの中にある readxl パッケージによってだいぶ楽になったとはいえ、まだまだ手元でエクセルファイルを直さないとまともに読み込めない、というのが現状でした(セル結合とかキツイですよね...)。 そんななか、そのあたりを面倒見てくれるパッケージが登場していますので、それを紹介したいと思います。本記事で紹介するのは以下のパッケージです。 tidyxl unpivotr この2つはペアで使うことが多いようです。 なお、tidyxl パッケージと unpivotr パッケージについては本記事の内容はほぼ全て以下のWeb Bookに詳しく書かれています。 nacnudus.github.io 本日のゴール

                                                                闇のExcelに対する防衛術 - ★データ解析備忘録★
                                                              • 「新しい生活様式」での商圏はどこにある? スマホ位置情報の「人流ビッグデータ」解析AIツールで飲食店などを支援【地図と位置情報】

                                                                  「新しい生活様式」での商圏はどこにある? スマホ位置情報の「人流ビッグデータ」解析AIツールで飲食店などを支援【地図と位置情報】
                                                                • SOLS(ソルス)の評判!実績から利回りや投資期間をデータ解析

                                                                  他にもAmazonギフト券や楽天ポイントが貯まるキャンペーンを紹介中! 5分程度の登録作業で高時給バイトになりますね👍 キャンペーン一覧はこちら SOLS(ソルス)の評判! 実績から利回りや投資期間をデータ解析SOLS(ソルス)の評判は? 過去案件を解析し、強みと弱みを解説! また、投資するべき案件条件も大公開しています! この記事でわかること ・SOLS(ソルス)とは? ・メリットや特徴 ・デメリットとリスク ・投資したいファンド条件 ・SOLS(ソルス)のファンド実績 ・怪しい・怪しいの評判や口コミの真相 ・キャンペーン情報

                                                                    SOLS(ソルス)の評判!実績から利回りや投資期間をデータ解析
                                                                  • 実験データ解析再入門:論文を「フェイクニュース」にしないために

                                                                    脳科学若手の会ワークショップ(2022.3.13) 神谷之康(京都大学・ATR) 概要 概念や仕組みをよく理解しないまま実験データの解析で使っている統計手法はありませんか。神経科学では大規模で多様なデータ取得が可能となり、統計解析の重要性が増しています。昔なら比較的無害だった統計の誤用が致…

                                                                      実験データ解析再入門:論文を「フェイクニュース」にしないために
                                                                    • 三井物産、暗号化したままデータ解析 AI活用 【イブニングスクープ】 - 日本経済新聞

                                                                      三井物産はビッグデータを暗号化し、他人が解読できない状態にして人工知能(AI)が解析する「秘密計算」のサービスを始める。外部漏洩が許されない個人情報や企業の秘密データを依頼主が暗号化してから預かり、AIで分析して依頼主に結果を戻す。これまで企業や研究機関などが漏洩に配慮して分析に踏み切れなかったデータにも、活用の余地が広がる。秘密計算はデータそのものに暗号の鍵をかけたり、複数に切り分けたりして

                                                                        三井物産、暗号化したままデータ解析 AI活用 【イブニングスクープ】 - 日本経済新聞
                                                                      • GitHub - aviatesk/intro-statistical-modeling: 『データ解析のための統計モデリング入門』の勉強ノート

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - aviatesk/intro-statistical-modeling: 『データ解析のための統計モデリング入門』の勉強ノート
                                                                        • 船舶の物体検出!第2回衛星データ解析コンテスト上位入賞者の解析手法紹介! | 宙畑

                                                                          衛星データを用いた船舶検出アルゴリズムコンペ「Tellus Satellite Challenge」の上位3名の解析手法をご紹介します。 (1)「Tellus Satellite Challenge」とは~企画の狙い~ 「Tellus」は日本政府が掲げる「宇宙産業ビジョン2030」で述べられている「2030年代早期に宇宙産業全体の市場規模の倍増する」という目標達成に向けて、衛星データの産業利用を目的とした衛星データプラットフォーム事業。 Tellus事業の一環として、衛星データの利活用事例を可視化し、優秀なデータサイエンティストの発掘、衛星データの周知・啓蒙等を行うことで「Tellus」の利活用促進を目的としたデータ分析コンテストが「Tellus Satellite Challenge」です。 初回のチャレンジは2018年の10月に開催され、テーマは「SARデータを用いた熊本地震における土

                                                                            船舶の物体検出!第2回衛星データ解析コンテスト上位入賞者の解析手法紹介! | 宙畑
                                                                          • 【独自】熱中症で白内障の発症率4倍に 260万人分の診察データ解析

                                                                            28日も各地で猛暑日を観測しています。そうしたなか、熱中症にかかったことがある人は、将来、白内障を発症する確率が4倍ほど高まることが分かりました。 金沢医科大学の佐々木洋主任教授らは、およそ260万人分の医療機関の診察データから、熱中症にかかった後に白内障を発症した人の割合を調べました。 その結果、熱中症にかかったことがない人と比べて、5年後に白内障を発症する確率が4倍ほど高まることが分かりました。 金沢医科大 眼科学講座 佐々木洋主任教授:「体内の温度も上がることで目の中の温度そのものが上がって、温度そのものの影響として白内障のリスクが上がっている。“核白内障”というすごい多いタイプだが、水晶体が濁るので(最終的に)目の奥に光が入らなくなるので、ほとんど見えなくなってしまう」 年齢別でみると、20代からリスクが上昇し始め、60代では5倍近くになっていました。 金沢医科大 眼科学講座 佐々

                                                                              【独自】熱中症で白内障の発症率4倍に 260万人分の診察データ解析
                                                                            • データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!)

                                                                              分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 データ解析・機械学習でモデルを構築し始める際のサンプル数の目安について、もちろんモデルを構築する時には、可能な限り多くのサンプルを用いることが望ましいです。多くのサンプルを用いることで、サンプルの変化に強い (例えばサンプルが一つ追加されたり一つ削除されたりしても結果の変わりにくい) 頑健なモデルを構築できる可能性が高まります。頑健なモデルにより、より妥当な x の設計やモデルの解釈が可能になります。 ただし、サンプルを集め

                                                                                データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!)
                                                                              • 暗号技術とAIの融合 個人情報守りつつ分散データ解析が可能に 政府のビッグデータ利活用を後押し:東京新聞 TOKYO Web

                                                                                政府は成長戦略としてビッグデータの利活用を掲げるが、個人情報保護との両立が欠かせない。国立研究開発法人「情報通信研究機構(NICT)」のサイバーセキュリティ研究所では、個人情報を守りつつ、複数の組織が持つ情報を統合して解析する技術を開発。銀行間に分散する取引データを活用し、ニセ電話詐欺などの検知システムの精度向上に役立てている。研究所の盛合志帆所長に仕組みを聞いた。(小嶋麻友美)

                                                                                  暗号技術とAIの融合 個人情報守りつつ分散データ解析が可能に 政府のビッグデータ利活用を後押し:東京新聞 TOKYO Web
                                                                                • 化学のためのPythonによるデータ解析・機械学習入門 | Chem-Station (ケムステ)

                                                                                  概要 本書は、化学・化学工学分野でPythonを使って機械学習を行うための入門書です。 これまでに蓄積してきた実験/製造データをデータ解析・機械学習を用いて分析することで、いままでとはまったく別のアプローチで材料開発を加速させたり、プロセス管理を効率化・安定化させたりすることができます。なぜなら、実験や製造データは、目に見えない、研究者・技術者の知識・知見・経験・勘の宝庫だからです。そして、データ解析・機械学習を用いることで、これらを目に見える形にすることができるからです。 読者が一から実践できるよう、Pythonのインストール方法、データ解析・機械学習の基本理論から、材料設計、分子設計、プロセス管理について実際にサンプルプログラムとサンプルデータセットを使った実践までを丁寧に解説しています。 (引用:オーム社HP) 対象者 ・化学系、化学工学系でデータ解析や機械学習に挑戦したい人。 ・ケ