サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 17
labo-code.com
この記事はNetwork pharmacologyに関する記事で、複数あるタンパク質相互作用ネットワークを可視化し、その中心の役目を担うタンパク質を発見していきます。Cytoscapeの使い方を詳しく説明しているので、ぜひトライしてみて下さい! 動作検証済み環境 Mac M1, Sequoia 15.3 自宅でできるin silico創薬の技術書を販売中 新薬探索を試したい方必読! ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 分子ドッキングやMDシミュレーションなど、 自宅でできるin silico創薬の解析方法を解説したものになります! 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 in silico創薬の技術を網羅的に
これまでの9回にわたるシリーズで、私たちはMIの核心的なワークフローを一気通貫で学んできました。その結果、私たちの手元には、既存の材料を超える性能を持つ候補を提案できる、強力な「探索エンジン」が完成しました。 そこで入門編の最終回となる今回は、このMIの成果を、より多くの人々に「届ける」ための架け橋を架けます。テーマは「MIを届けよう!Streamlitで対話的なWebアプリ開発」です。Pythonの知識がなくても直感的に操作できるWebアプリケーションを驚くほど簡単に構築できるフレームワークStreamlitを使い、私たちが育て上げた予測モデルを、Google Colaboratory上から直接起動できる、より実践的で高機能なWebアプリケーションとして、誰でも使えるツールへと昇華させます。 動作検証済み環境 Google Colaboratory Python 3.11.13 matm
本記事はNetwork pharmacologyに関する記事で、漢方成分から予測した標的と疾患から予測した標的の共通部分を見つけ出します。いよいよ具体的な標的タンパク質が発見できますので、是非トライしてみてください! 動作検証済み環境 Mac M1, Sequoia 15.3 自宅でできるin silico創薬の技術書を販売中 新薬探索を試したい方必読! ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 分子ドッキングやMDシミュレーションなど、 自宅でできるin silico創薬の解析方法を解説したものになります! 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 in silico創薬の技術を網羅的に知りたい方、さらにそれらを用
本記事はNetwork phrmacologyの内容の一つで、疾患から標的タンパク質の特定を行います。Open TargetsというWebサイトを使って簡単にできるので、ぜひトライしてみて下さい。 動作検証済み環境 Mac M1, Sequoia 15.3 自宅でできるin silico創薬の技術書を販売中 新薬探索を試したい方必読! ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 分子ドッキングやMDシミュレーションなど、 自宅でできるin silico創薬の解析方法を解説したものになります! 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 in silico創薬の技術を網羅的に知りたい方、さらにそれらを用いてPCだけで論文を
この記事では、ネットワーク薬理学の具体的な手法として、ChEMBL Multitask Neural Networkモデルを用いたターゲット予測プロセスを詳細に解説します。特に、伝統的な漢方薬である黄芩(Scutellaria baicalensis)の成分がどのタンパク質に作用する可能性があるかについて予測しております。ぜひご覧ください。 動作検証済み環境 Mac M1, Sequoia 15.3 自宅でできるin silico創薬の技術書を販売中 新薬探索を試したい方必読! ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています 技術書ページへ 自宅でできるin silico創薬の技術書を販売中 分子ドッキングやMDシミュレーションなど、 自宅でできるin silico創薬の解析方法を解説したものになります! 技術書ペ
4. ChromeDriverのインストール(Macユーザー向け) brew install chromedriver このコマンドは Mac のユーザーが selenium を使うために必要なドライバ chromedriver をインストールします。 brew はMac用のパッケージ管理ソフトです。 chromedriver は、SeleniumがGoogle Chromeを操作するために必要な「仲介役」です。 注意:Chrome本体のバージョンとドライバのバージョンを合わせる必要があります。 Windowsの場合は、公式サイトからChromeDriverをダウンロードしてパスを通す必要があります。 5. 必要なライブラリのインストール② pip install selenium pandas tqdm 一部重複していますが問題ありません(すでに入っていればスキップされます)。ここでは
本記事は、MLポテンシャルUMAでDFT相当の精度を維持しつつ分子構造最適化を100~10,000倍高速化する手法を、UMAの導入から使い方、エネルギー・幾何収束の可視化までColab上で手軽に試せるよう端的に解説します!
創薬モダリティとしての環状ペプチドとは?環状ペプチドは、ペプチド鎖の末端同士を結合して環状構造を形成したモダリティです。比較的に小分子でありながら複雑な立体構造を持ち、直鎖ペプチドと比較して、その立体構造を安定的に保持できることにより、以下の特長を持ちます。 ①標的タンパク質との結合において、柔軟すぎない立体構造が有利に働き、高い親和性と選択性を示す。 ②安定性が高く、体内の酵素に分解されづらい。 ③立体構造の安定性の向上により、膜透過性が上がるとの報告もある。 ①の利点により、立体構造を保持しやすいためにタンパク質間相互作用(PPI)を阻害できる点が注目されています。PPI阻害には、比較的広範囲な領域に結合することが求められますが、低分子薬では結合が難しい標的です。環状ペプチドは抗体のように広い表面を認識できるため、これらの「創薬困難標的」に対して新たな選択肢を提供します。 さらに、同じ
概要ここでは、TCGAの中でも代表的ながん種である 乳がん(TCGA-BRCA) を対象とします。 解析には、Bioconductorで提供されているcuratedTCGADataとTCGAutilsパッケージを使用します。curatedTCGADataはTCGAの各種オミックスデータ(遺伝子発現、変異、コピー数、メチル化、miRNA、RPPA など)を、各がん種ごとに 統一された形式(MultiAssayExperiment) で取得できるパッケージです。 データは Broad Genome Data Analysis Center(Broad GDAC) に由来し、整形済みで即解析可能です。 MultiAssayExperimentに限らず、Bioconductorにある「~Experiment」という名前のパッケージ(例: SingleCellExperiment, Summariz
Cox回帰とは?Cox比例ハザードモデル(Cox回帰) とは、生存時間データにおいて、共変量$x_1, x_2, …, x_n$とイベント発生の関係性を解析するための統計モデルです。 共変量とは、性別・年齢・身長・体重など、イベント発生に関係しそうな患者ごとの特徴を指します。 オミックス解析では遺伝子発現や遺伝子の変異の有無なども共変量となります。 Cox回帰では、ハザード関数(単位時間あたりのイベント発生率)を、回帰モデル $$ \eta = \beta_1 x_1 + \beta_2 x_2 + …, \beta_n x_n $$ として表現し、各変数の影響を推定します。 イベントに強く関与する変数(例:$x_i$)ほど、対応する係数(例:$\beta_i$)は0から大きく離れた値となります。 この線型結合の値$\eta$はリスクスコア、またはPrognostic Index(PI)な
前回の第8回では、予測モデルを「探索エンジン」として利用し、数万件もの仮想実験を行う「ハイスループット・バーチャルスクリーニング(HTVS)」に挑戦しました。力まかせのランダム探索というアプローチではありましたが、私たちは既存のチャンピオンデータを超える、優れた新規材料候補を発見することに成功しました。 しかし、その成功の裏で、膨大な数の「ハズレ」の候補を計算していたことも事実です。もし、AIがより賢く、有望な領域に的を絞って探索してくれたなら、もっと効率的に、あるいはさらなる高みへと到達できるのではないでしょうか? そこで第9回となる今回は、この「探索の効率」を劇的に向上させるための強力な武器、「ベイズ最適化(Bayesian Optimization)」を導入します。ベイズ最適化は、単なる闇雲な探索ではありません。これまでの探索結果から「次にどこを探索すれば、最も良い結果が得られそうか
この記事から学べること局所探索HTVSの概念: 広大な空間を闇雲に探すのではなく、有望な候補の周辺を重点的に探索する、効率的な材料改良アプローチを理解できます。探索空間の設計: 特定の材料の周囲に、探索範囲を意図的に絞り込む方法を学べます。仮想的な材料改良の実践: 学習済みモデルを使い、既存のチャンピオン材料の組成を微調整しながら、それを超える性能を持つ候補を探索するプロセスをハンズオンで体験できます。チャンピオンデータの更新: 局所探索HTVSによって、既存のチャンピオンを上回る新たな有望材料を発見し、性能の限界点をさらに押し上げるアプローチを学べます。関連理論の解説1. 局所探索HTVS:巨人の肩の上に乗る戦略HTVS(ハイスループット・バーチャルスクリーニング)には様々な戦略がありますが、今回はその中でも特に実用的な局所探索(Local Search)に焦点を当てます。これは、既に発
最終ステップでは、この「チャンピオンデータ」の組成を確認します。この材料は「降伏強度 約2426 MPa」「引張強さ 約2488 MPa」という、他を圧倒する強度特性を持つと予測されています。その組成(C: 0.0%, Ni: 18.1%, Mo: 3.6%など)は、マルエージング鋼のような高強度鋼の特徴を示唆しており、MIがデータの中から物理的に意味のある有望な候補を自動的に発見した好例と言えます。 コードの詳細解説ステップ3: 特徴量と複数ターゲットの定義# =================================================================== # 3. 特徴量と複数ターゲットの定義 # =================================================================== # 'compo
アンサンブルモデルの平均予測値で評価した性能は、テストデータにおいてR²スコア0.810と、第2回で構築した単一のCatBoostモデルとほぼ同等の高い精度を達成しています。これは、アンサンブル化によって予測精度を損なうことなく、不確実性という新たな価値ある情報を付与できたことを意味します。 予測信頼性の可視化 グラフから読み解くモデルの「自信」 エラーバー(信頼区間)の意味: テストデータ(赤い点)に付与された縦方向のエラーバーは、95%信頼区間を示します。このバーが短いほど、アンサンブルを構成する全モデルの予測が一致しており、モデルがその予測に「自信を持っている」ことを意味します。逆にバーが長いほど、モデル間の予測がばらついており、予測の不確実性が高いことを示唆します。不確実性の傾向: グラフ全体を見ると、降伏強度が低い領域ではエラーバーが短く、高強度領域になるにつれて長くなる傾向が見
最終的に最も高い性能を示したのは、最初に構築した「元素含有率のみ」のモデルでした。 ドメイン知識を注入し、特徴量を複雑にする試みは、いずれもベースラインを超えることができませんでした。 この結果は「失敗」ではなく、MIプロジェクトにおける最も価値ある学びの一つです。 なぜ性能は向上しなかったのか?「次元の呪い」の猛威 最も性能が低かったのは、最多の物理記述子(132個)を持つモデル(A-All)でした。これは、データサンプルの数(312個)に対して特徴量が多すぎたためです。モデルは、予測に有用な情報(シグナル)と無関係な情報(ノイズ)の区別がつかなくなり、ノイズにまで過剰に適合しようとして学習が混乱し、未知のデータに対する予測能力を失ってしまいました。 特徴量選択の限界 特徴量選択(モデル A-Selected)によってノイズを減らし、性能が改善したことは、このアプローチの有効性を示してい
ハイパーパラメータを最適化したことで、R²スコアは0.805から0.836へと向上しました。MAE(平均絶対誤差)はほぼ横ばいでしたが、R²スコアの改善は、モデルがデータのばらつきをより上手く説明できるようになったことを示しています。劇的な改善ではないものの、これはモデルアーキテクチャを変えずに性能のポテンシャルを引き出す、チューニングの重要な役割を示しています。 2. Parity Plotによる視覚的考察 Parity Plotで結果を視覚的に確認すると、最適化モデル(赤い点)はデフォルトモデル(青い点)と比較して、わずかに理想線(黒い破線)に近づいていることが見て取れます。特に予測値が高い領域での外れ値が少し抑制されるなど、細かな改善が見られます。これは、R²スコアの数値的な向上を裏付けるものです。 コードの詳細解説 Optuna を用いたハイパーパラメータチューニングのコードは、一
コードの詳細解説 ソースコードの各ステップが、マテリアルズインフォマティクスのプロジェクトにおいてどのような意味を持つのか、より深く掘り下げて解説します。 ステップ0 & 1: 環境構築とライブラリのインポート これは、料理で言えば調理器具と食材を揃える、プロジェクトの最も基本的な準備段階です。 # =================================================================== # 0. 環境構築:必要なライブラリのインストール # =================================================================== !pip install matminer==0.9.3 pandas==2.2.2 scikit-learn==1.6.1 !pip install matplotli
訓練データでの性能: R²スコアが0.996と、ほぼ完璧です。これは、CatBoostが訓練データのパターンを非常に高い精度で学習できる、強力な表現力を持っていることを示します。 テストデータでの性能: R²スコアが0.805と、訓練データよりは低いものの、非常に高いレベルを維持しています。線形回帰のマイナススコアとは雲泥の差であり、実用的な予測モデルとして機能していることを示します。 汎化性能の獲得: 訓練データとテストデータ両方で高い性能が出ており、モデルが未知のデータに対しても(過学習を抑制しつつ)うまく機能する、高い汎化性能を持つことがわかります。 モデルパフォーマンスの可視化 グラフでは、訓練データ(青)はほぼ完全に理想線上に乗っており、テストデータ(赤)も多少のばらつきはありますが、全体として理想線に強く追従しています。これは、CatBoostが線形回帰では捉えきれなかった非線
訓練データ(教科書)での性能: R²スコアが0.551。これは、モデルが学習に使ったデータの内容を、約55%は説明できていることを示します。完璧ではありませんが、データから何らかのパターンを学習しようとした努力の跡が見えます。 テストデータ(本番試験)での性能: R²スコアが -0.205。これは衝撃的な結果です。マイナスの値は、モデルの予測が「常に全データの平均値を予測する」という最も単純な予測よりもさらに悪いことを意味します。つまり、このモデルは未知の問題に対しては全く役に立たない、むしろ有害でさえあるということです。 過学習の診断:グラフが語るモデルの「病状」 この「訓練データではそこそこ、テストデータでは最悪」という性能の大きなギャップこそが、「過学習」の典型的な症状です。モデルが訓練データに存在するパターンを「丸暗記」することに終始してしまい、物性の背後にある普遍的な法則を学ぶこ
本記事は、機械学習ポテンシャル UMA を使って化学反応の最小エネルギー経路(MEP)を探索する方法を、Python/ASE 上で実践的に解説します。反応機構の解明や触媒設計、材料探索などで「どのように遷移状態を見つけるか」が課題となる際に役立ちます。
力場への金属イオンの追加 力場ファイルの確認 今回はamber99sb-ildn の力場に対して、Mnを追加することを行います。 例えば以下の論文で使われているHuman arginase I (HARGI)(PDB:2AEB)を参考にしてください。 QM/MM Simulations for the Broken-Symmetry Catalytic Reaction Mechanism of Human Arginase I まずエラーが起きる箇所ですが、タンパク質の準備の時に以下のコードを行います。 gmx pdb2gmx -f protein.pdb -o protein_processed.gro -ignh amber99sb-ildn , TIP3P を選択します。 以下のエラーが出ると思います。 ---------------------------------------
Windows 11 Home, 13th Gen Intel(R) Core(TM) i7-13700, 64 ビット オペレーティング システム、x64 ベース プロセッサ, メモリ:32GB Umbrella Samplingの概要と目的Umbrella Samplingは、分子がめったに起こさないような状態変化(たとえば、タンパク質同士が離れるなど)を詳しく調べるための計算手法です。通常の分子動力学(MD)では、エネルギー的に安定な状態にとどまりやすく、重要な変化が起こる確率が低いため、十分な情報が得られません。 たとえば、タンパク質AとBがくっついている状態から、少しずつ離れていく様子を観察したいとき、まずAとBを少しずつ引き離すSteered Molecular Dynamics(SMD)などのシミュレーションで、さまざまな距離の構造を取得します。その中から、0.5nm、0.7
本記事では、プログラミングの知識がなくても利用できるGUIベースの生存時間解析のツールを紹介しています。 GDC Data PortalやUCSC Xena、KM-PlotterといったWebアプリケーションを用いることで、TCGAなどの大規模公開データを対象に、簡単な操作だけでKaplan-Meier曲線の描画やログランク検定を行うことができます。 これらのツールは、研究の初期段階での仮説探索や、特定の遺伝子と生存率との関連を素早く確認したい場合に非常に有用です。本記事ではそれぞれの特徴や使い方をスクリーンショット付きで解説し、非専門家や初学者でもすぐに実践できるよう構成しています。
RNA foldとは?RNAfold Web Serverは、RNAの塩基配列からその二次構造を予測するためのオンラインツールです。オーストリアのウィーン大学によって開発された ViennaRNA Package の一部であり、RNAfoldコマンドラインツールのWeb版にあたります。ユーザーは、RNAの一次配列(A, U, G, Cからなる文字列)を入力するだけで、計算に基づいて最も安定な構造(自由エネルギーが最小になる構造)を可視化できます。商用利用も可能となっています。 アプタマーとその二次構造予測アプタマー(Aptamer)は、特定の分子(タンパク質や小分子)と強く結びつく短いRNAまたは一本鎖DNAのことです。アプタマーは、抗体のように特定の標的を選んで結合する性質を持っていますが、化学的に合成できる点が大きな特徴です。 今回取り上げる以下の文献では,SARS-CoV-2スパイク
ブラウン運動ってなに?まずはブラウン運動のイメージから。たとえば水に浮かんだ花粉を顕微鏡で見ると、フラフラと不規則に動いているのが分かります。この動きが「ブラウン運動」です。 シミュレーション : Pythonでブラウン運動を描く実装:Pythonでランダムな動きを計算するここからは、実際にPythonを使ってブラウン運動の動きを作っていきます。必要な設定(どれくらい長く動かすか、どのくらい細かく時間を分けるかなど)をしたあと、コンピュータにランダムな動きを計算してもらいます。 import numpy as np rng = np.random.default_rng() dimension = 2 # 動く方向の数(ここでは上下 + 左右の2方向) time = 1.0 # 動かす時間の長さ steps = 100000 # 動きを何回に分けて計算するか # 時間を細かく分けた点を作成
Alphafold Analysisとは?Alphafold Analysisとは、Alphafold 2による立体構造予測の結果を分析するためのツール群です。Alphafold 2はアミノ酸配列から立体構造を予測するAIツールです。Alphafold 2によって生成された構造を分析するために、いくつかの指標が提案されているが、それらを利用するには複数のスクリプトを実行する必要があり、初心者に取って難しい課題があります。Alphafold Analysisでは、これを解決するため、複数の指標による評価や可視化を簡単に実行できるライブラリを提供します。 Alphafold Analysisを利用した構造予測結果の分析早速Alphafold Analysisを用いて構造予測結果の分析を行ってみましょう! こちらからGoogle Colaboratoryのページに飛んでください。 また、今回はl
機械学習 (ML) ポテンシャルとは?MLポテンシャル (Machine-Learning Interatomic Potential) とは、 「量子化学計算(DFT / ab initio)が返すエネルギーと力を、ニューラルネットなどの統計モデルでほぼ同精度・桁違い高速に近似するもの」 です[1]。 以下でもう少し詳しく見ていきます。 なぜ速いのかDFT は電子波動関数を自洽的に解くため計算量が O(N³) 以上。ML ポテンシャルは 原子座標 → ニューラルネットへの順伝播 だけなので O(N) に近い。その結果、10²〜10⁴ 倍 速い評価が可能になります。精度は大丈夫?学習データを高精度 DFT / CCSD(T) で網羅的にサンプリング。多くの有機分子での誤差 (MAE) は < 1 kcal mol⁻¹[2]。ただし、訓練集合の化学空間から外れると外挿誤差が発生しやすい点に注
動作検証済み環境 macOS Monterey (12.4), Quad-Core Intel Core i7, Memory 32GBGSEA解析とは?GSEA(Gene Set Enrichment Analysis) は、発現変動解析で得られた遺伝子のリストを用いて、生物学的な機能や経路に関与する「遺伝子セット(gene sets)」が全体として有意に変動しているかを統計的に評価する手法です。 通常のエンリッチメント解析と異なり、GSEAは全遺伝子のランキング情報を使用するため、特に微細な発現変化を捉えることができ、発現変動傾向の全体的なシフトを検出するのに適しています。 単一の遺伝子ではなく、機能的なグループ単位(経路・ネットワーク)で解析したいときに有効で発現変動が小さくて個別には検出されない遺伝子群も、集合的に見ることで意味のある変動が見つかることがあります。 解析準備GEOか
発現変動解析結果の可視化についてRNA-seq実験から得られた発現変動解析の結果を効果的に可視化することは、データの理解と生物学的解釈において非常に重要です。適切な可視化によって、膨大な遺伝子発現データから有益なパターンや重要な遺伝子を迅速に識別することができます。この章では、RNA-seq解析における主要な可視化手法について説明します: MAプロット:平均発現量と発現変化の関係を視覚化し、発現変動パターンの全体像を把握火山プロット:発現変化量(log2FoldChange)と統計的有意性(p値)を同時に表示し、生物学的・統計的に重要な遺伝子を特定ヒートマップ:複数サンプル間の発現パターンを色の強度で表現し、遺伝子クラスタリングやサンプルの類似性を視覚化これらの可視化手法を通じて、実験条件間の発現変動の特徴を理解し、さらなる機能解析のための候補遺伝子を効率的に選別することができます。ここで
次のページ
このページを最初にブックマークしてみませんか?
『トップページ - LabCode』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く