サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
新内閣発足
datachemeng.com
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 データ解析・機械学習でモデルを構築し始める際のサンプル数の目安について、もちろんモデルを構築する時には、可能な限り多くのサンプルを用いることが望ましいです。多くのサンプルを用いることで、サンプルの変化に強い (例えばサンプルが一つ追加されたり一つ削除されたりしても結果の変わりにくい) 頑健なモデルを構築できる可能性が高まります。頑健なモデルにより、より妥当な x の設計やモデルの解釈が可能になります。 ただし、サンプルを集め
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。逆です。精度の高いモデル...
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 モデルに関して、予測精度の高いモデルを構築することも重要ですし、構築したモデルを解釈することでデータセットが取得された実験系やシミュレーション系に新たな知見をフィードバックすることも大事です。モデルの予測精度の向上や解釈性の向上のため、x を検討することが行われます。特徴量エンジニアリングと呼ばれることもあります。 分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プ
2021 年 6 月 3 日に、金子弘昌著の「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」が出版されました。講談社: Amazon: Amazon(Kindle): === 出版して約2年経過した 2023 年 4 月 ... 具体的には、ガウス過程回帰モデルの構築、獲得関数の値が大きい実験条件のサンプルの選択、そのサンプルを用いた実験を繰り返します。 ベイズ最適化の途中で、縦軸をガウス過程回帰モデルによる y の予測値、横軸を y の実測値とするプロットをして、予測値と実測値と合ったかどうか検証をする人がいますが、ベイズ最適化においては意味がありませんのでご注意ください。ベイズ最適化によって提案された実験条件のサンプルの予測値と実測値の間の誤差は、ベイズ最適化の検証方法としては適切ではありません。なぜなら、ベイズ最適化では y の予測値が実測値と合うようなサンプルを提
Anaconda が、ある条件のもとで有償化されています。 参考: https://qiita.com/tfukumori/items/f8fc2c53077b234384fc 原文: https://www.anaconda.com/blog/sustaining-our-stewardship-of-the-open-source-data-science-community 個人的な趣味で Anaconda を利用したり、大学や研究所において教育・研究するために Anaconda を用いたりするときは問題ないと思いますが、例えば企業において使用するとき、場合によっては有償ライセンスを使用する必要があるかもしれません。もちろん、Anaconda は便利であり、有償であっても利用する価値はあると思います。 ただ一方で、いろいろな理由で有償ライセンスを導入できないことがあるかもしれません。
サポートベクターマシン (Support Vector Machine, SVM) や サポートベクター回帰 (Support Vector Regression, SVR) や ガウス過程回帰 (Gaussian Process Regression, GPR) などでよく出てくるカーネル関数についてです。
モデル Y=f(X) を用いることで、まだ実験していない実験条件の候補の値をモデルに入力し、実験の結果としての材料サンプルがもつと考えられる物性の値を推定できます。推定値が材料物性の目標値になる、もしくは近いような実験条件の候補を選択することで、次に行う実験を決められます。 実験の結果が得られたら、それが目標を達成していれば終了です。目標を達成していなかったら、実験条件の候補と実験結果をあわせたものをデータベースに追加して、再度モデルを構築します。新たに構築されたモデルを用いることで、次は別の実験条件の候補が選択されます。このように、モデル構築と次の実験の提案を繰り返すことを適応的実験計画法と呼び、詳細は2.3節で解説します。 1.4 なぜベイズ最適化が必要か これまで、Y の推定値が目標値に近いような X の候補を次の実験条件の候補として選択する、といった説明をしていました。分子設計でも
たまにクラス分類 (classification) とクラスタリング (clustering) を混同する人がいますが、クラス分類とクラスタリングとは全く別物です。逆の意味で使ってしまうことのないようにするためにも、それぞれの意味合いを押さえておきましょう。 クラス分類 (classification) クラス分類は、事前にクラスが割り当てられたサンプルを、説明変数 (入力変数・記述子・特徴量) の空間において、クラス (class) ごとに分類することです。ざっくりというと、クラスの間に境界線を引くわけです。境界線を引いてしまえば、新しいサンプルのクラスを推定することができますが、境界線を引くためには、最初にいくつかのサンプルについてクラスに関する情報が必要になります。たとえば、この化合物は薬である (クラスA)、この化合物は薬でない (クラスB) といった情報です。 クラスが2つだけの
2019 年 10 月 23 日に、金子弘昌著の「化学のためのPythonによるデータ解析・機械学習入門」が発売になりました。 オーム社: https://www.ohmsha.co.jp/book/9784274224416/ (Amazon で在庫が切れていても、他では在庫があるようです。上のオーム社のウェブサイトにおける「購入はこちら」からお求めいただければと存じます) Amazon: https://www.amazon.co.jp/dp/4274224414 データ解析・機械学習や Python の初学者向けの本であり、内容については金子研の学生にも確認してもらいながら精査し、いい感じに仕上がったと思います。 ここでは本書の 「はじめに」 の部分を無料公開します (出版社も承諾済み)。購入する際の参考になれば幸いです。それでは、よろしくお願いいたします。 化学・化学工学でデータ解
この記事では、MATLAB にある程度慣れている人の中で、これから Python をはじめる人を対象としています。両方ともプログラミング言語で似ているところもあるため、0 から Python をはじめるよりは MATLAB を経験していたほうがやりやすいです。ただ、MATLAB と Python とで違う点もあります。今回は重要な相違点をまとめました。 MATLAB は、数値計算・データ解析・機械学習を行うためのプログラミング言語の一つとして有名です。行列計算をしやすいように設計されているため、データ解析したり機械学習の手法を開発したりしやすいのです。Statistics and Machine Learning Toolbox などの多くのツールボックスが充実しており、機械学習の分野だけでなく信号処理・制御・経済・ロボットなどのいろいろな分野で活用されています。制御の分野では Simul
スペクトル解析のときや、時系列データを扱うときの話です。 いくつかの点でスペクトルデータと時系列データは似ています。たとえば、隣同士の値が似ているっていう点ですね。他にも、データにノイズが含まれるという点も共通した特徴です。 このようにスペクトルデータと時系列データとが共通した特徴を持っていることから、同じようなデータの前処理により、その後の回帰モデルやクラス分類モデルの構築において、推定性能を向上させる試みがあります。 今回は、そのようなスペクトル・時系列データの前処理の方法として、平滑化 (スムージング) と微分を紹介します。データの前処理法のpdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。 pdfもスライドも自由にご利用ください。 興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。 スライドのタイトル ス
今回は、混合ガウスモデル (Gaussian Mixture Model, GMM) というクラスタリングの手法です。GMM を使うことで、データセットをクラスターごとに分けられるだけでなく、データセットの確率密度分布を得ることができます。この分布を使えば、新たにサンプリングできたり、回帰分析やクラス分類の逆解析に応用できたりするわけです。 そんな有用な GMM について、pdfとパワーポイントの資料を作成しました。GMM の具体例や計算方法について説明されています。pdfもスライドも自由にご利用ください。 pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。 興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。 GMM の概要 クラスタリング手法の一つ 与えられたデータセットを、複数の正規分布の重ね合わせで表現する
これまで科研費だけでなく、いろいろな財団からの助成金をいただき、研究を進めたり研究成果を発表したりしてまいりました。そのお陰様をもちまして、順風満帆に研究を進められております。感謝申し上げます。 研究を進めるためにお金が必要なことは、研究者なら誰でも感じていることと思います。そのような研究をするためにお金が必要な方々に、少しでもお役に立てればと、いつも考えております。そこで今回は、科研費や助成金や DC1 などで過去に採択していただいたときの、わたしの申請書を公開します。下に新しい順に並べています。もちろん不採択になったものもたくさんありますが、ここでは採択されたものだけ載せています。ご参考になれば幸いです。 ちなみに、わたしの所属が以前の東京大学になっているものもありますが、今の所属はこのウェブサイトにあるように明治大学です。メールアドレス等はこちら https://datachemen
AD はサンプル間の類似度に基づくものが多いです。たとえば、トレーニングデータのサンプルとテストデータのサンプルとの類似度が高いとき、そのテストサンプルは AD の中、逆に類似度が低いとき、AD の外、といった具合です。 今、類似度を (ユークリッド) 距離の逆数とします。距離が小さいとき、類似度が高くなりますね。ただ距離の逆数でない別の類似度を考えてもらっても全く問題ありません。とにかく、トレーニングサンプルとテストサンプルとの間で距離を計算するわけです。 今、説明変数が 100 あって、トレーニングデータにおいて標準偏差が 0 の変数が 30 あり、残った変数が 70 になったとしましょう。もちろんオートスケーリングした後に、70 変数で距離を計算することになります。 ここで大事なことは、標準偏差が 0 になったのはトレーニングデータの中だけであって、テストデータまで含めると、標準偏差
NEDOの「脱炭素社会実現に向けた省エネルギー技術の研究開発・社会実装促進プログラム」に、金子が共同研究先として参画する研究課題「カーボンニュートラル化のための革新的マテリアルリサイクル材料技術の実用化開発」が採択され、プロジェクトが進行し... データ化学工学研究室(金子研究室)のビジョン・理念は、 「すべての化学・工学データを知識に変える」 そしてミッションは、 Give people the power to visualize, understand, and design the world of chemistry and chemical engineering です。統計学・情報学・データ解析・機械学習を駆使して人工知能 (Artificial Intelligence, AI) やモデルをつくることで、暗黙知を形式知化したり、その形式知を活用して新たな設計をしたりする、化
データ解析に関するいろいろな手法を解説した記事や、データ解析をするときの考え方の記事をまとめました。興味のある内容がございましたら、ぜひリンクへ飛んでいただけたらと思います。 pdfファイルやパワーポイント(pptx)ファイルは、自由にご利用ください。 数学(行列計算・線形代数・統計・確率)が不安な方へ 高校数学の知識から、人工知能・機械学習・データ解析へつなげる、必要最低限の教科書 人の学習と人工知能の学習~人工知能を学習させるとかモデルを構築するということ~ Datachemical LAB 化学・化学工学分野におけるデータ解析・機械学習クラウドサービス「Datachemical LAB」 Datachemical LAB をデータ解析・機械学習・人工知能の初学者が用いて問題ないのか? Datachemical LAB は他のソフトウェアと何が違うのか?~9つの大きなポイント~ Dat
SVRの概要 線形の回帰分析手法 サポートベクターマシン (SVM) を回帰分析に応用 目的変数の誤差に加えて、それぞれ以下の項を最小化することで、過学習を防ぐ リッジ回帰 (RR)・LASSO・Elastic Net (EN) と同じ 誤差に不感帯を設けることでノイズの影響を受けにくい カーネルトリックにより非線形の回帰モデルに スライドのタイトル サポートベクター回帰 (SVR) とは? 基本的にSVRは線形の回帰分析手法 回帰係数 b 非線形の回帰モデルへ SVMとSVRとの比較 SVRの誤差関数 スラック変数 RR・LASSO・EN との関係 Lagrangeの未定乗数法 偏微分して0 G の変形 カーネル関数の例 α を求める 二次計画問題 SVRの回帰式 サポートベクターとは c の計算 SVRのまとめ・特徴 C, ε, γ の決め方 参考資料 C.M. ビショップ,パターン認
トレーニングデータ・バリデーションデータ・テストデータの定義について書いておきます。バリデーションデータとテストデータとを逆の意味に使う人もいますが、ここでは wikipedia に記載されている内容にあわせます。 トレーニング、つまり学習についてはこちらをご覧ください。
以下に学生に取り組んでもらっている課題を載せます。課題は逐次更新します。模範解答(というには恐れ多い)プログラムも一緒に置いておきます。参考にしてください。できればコメントをいただけると嬉しいです。 課題1: iris.csv を読み込み各変数の最大値・最小値・平均値・中央値・分散・標準偏差を求め basic_statistics.csv に保存するプログラムを作成せよ。自分なりの方法で各統計量があっているか確認せよ。 課題1のプログラム 課題2: iris.csv を読み込みすべての変数間の共分散と相関係数を求めそれぞれ covariance.csv, correlationcoefficient.csv に保存するプログラムを作成せよ。自分なりの方法で各統計量があっているか確認せよ。 課題2のプログラム 課題3: まずは変数の標準化 (オートスケーリング) について調べよ。次に、iri
回帰モデルやクラス分類モデルを検証するときの話です。 モデルの検証 一般的には、データセットが与えられたとき、サンプルをモデル構築用サンプル (トレーニングデータ, training dataset) とモデル検証用サンプル (テストデータ, test dataset) に分けます。そして、トレーニングデータで構築された回帰モデルやクラス分類モデルの推定性能を、テストデータで検証します。 回帰分析手法・クラス分類手法の中には、モデルを構築する前に決めておかなければならないパラメータ (ハイパーパラメータ) が存在します。たとえば、Partial Least Squares (PLS) における成分数、Support Vector Machine (SVM) における C やガウシアンカーネルの γ などです。このようなハイパーパラメータの値の決め方として、クロスバリデーションが一般的です。
データは、基本的に下図のように多次元で表現されていますので、 (次元の数は、変数の数とお考えください。厳密には異なりますが、だいたい同じです。) 工夫をしないとデータセットの全体像を見ることはできません。 下図のように、多次元空間に存在するサンプル (左) を2次元に変換する (右) 手法はたくさんあります。 (上の例では多次元といっても3次元なので、左の図でも全体像を見ることができますが、4次元以上になると見るのは難しいです。) 今回は、そんなデータの可視化・見える化のための手法を選ぶときのポイントを押さえておきます。 サンプルの近接関係は、多次元空間⇔2次元平面 で保持されているか? 多次元空間にあるサンプルを、適当に2次元平面に置いたのでは、データの可視化・見える化は まったく意味がありません。実際の多次元空間にあるサンプルたちの様子と近いものを、2次元平面で見たいわけです。 そこで
受講者のユーザーエクスペリエンスを大事にする 第7回ケモインフォマティクス入門講座 中級編 において講師 兼 ファシリテーターを務めてまいりました。 内容としては、 ケモメトリックスの基礎を学びサンプルデータなどでケモメトリックス手法を用いることができるようになっても、実際のデータを目の前にすると、変数選択、外れ値の調査といった前処理から始まり、解析後に得られた結果をどう解釈するか、といったように、まだまだ実際のデータを処理する時には様々な壁があります。 Pythonで学ぶケモメトリックス中級編講習会では、実際にグループでケモメトリックス解析に取り組むことで、実データを扱う時に直面する問題を解決し、最終的に良い解析ができることを目指します。これを通して、うまく解析できているとどう判断したら良いのか、うまく解析できなかった時には、どこを見直したらうまくいくかといった問題解決体験ができること
分子設計、つまり目的に応じた化学構造の設計についての話です。分子設計を応用する対象が、医薬品のときは、医薬品設計や薬物設計と呼ばれたりもします。 分子設計とは? 分子設計の目的は、高い機能をもつ化合物をつくることです。たとえば、 よく効く薬 (となる化合物) 収率が高くなる触媒 やわらかくて強度の高いゴム などです。このような高機能性化合物をつくるためには、どのような化学構造にすればよいか設計するのが、分子設計です。 下で丁寧に説明します。 化学構造と化合物 ここでは、「化学構造」と「化合物」とを使い分けます。化学構造とは、水素原子・炭素原子・酸素原子などの原子で構成される構造です。それぞれの原子がどこに位置するかと、各原子間はどのような結合か、で表されます。下図が化学構造の例です。 一方、「化合物」は実際に存在する分子です。たとえば水・エタノール・ベンゼンなど、実際にありますよね。もちろ
いろいろな回帰モデル・クラス分類モデルを構築したり、モデルの中のハイパーパラメータ (PLSの成分数など) を決めたりするとき、モデルを評価・比較しなければなりません。そのためのモデルの検証 (model validation) の方法について、pdfとパワーポイントの資料を作成しました。 データセットの説明からはじまり、モデル評価・比較するための指標・ハイパーパラメータの決め方・データの選び方などについて説明されています。pdfもスライドも自由にご利用ください。 pdfファイルはこちらから、パワーポイント(pptx)ファイルはこちらからダウンロードできます。 興味のある方はぜひ参考にしていただき、どこかで使いたい方は遠慮なくご利用ください。 スライドのタイトル “良い”回帰モデル・クラス分類モデルとは何か? データセットの呼び方 比較指標 回帰分析 決定係数 r2 回帰分析 RMSE 回
次のページ
このページを最初にブックマークしてみませんか?
『データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く