pychembldb使えば楽勝だというということの証明をしようと思ったが、意外に面倒くさかった。 ヒトのアッセイ系 信頼レベルマックス(Direct single protein target assigned) アッセイのタイプはBinding という条件でデータを引っ張ってくる。その後構造数<2のファイル(MMPにならない)を削除して、メタデータ(アッセイID, Uniprotのアクセッション番号、一般名称、データ元のジャーナル)を吐き出したあと、活性データをTSVに出力するようにしている。 最初はsdfのほうに活性情報も付けておけば楽勝じゃないかと思ったが、スキーマ見てたら測定タイプが正規化されてないうえに、AssayじゃなくてActivityのほうについてることに嫌な予感がしたので調べた。 やはり、pIC50とIC50が混在してたり、InhibitionとIC50が混在していた。
![ChEMBLのデータからMMP用のsdfセットを作成する](https://cdn-ak-scissors.b.st-hatena.com/image/square/064e77e727d974b86809fbadcf36b3bab2367567/height=288;version=1;width=512/http%3A%2F%2Fwww.kzfmix.com%2Fimages%2Fblog%2Fchembl_exp_schema.png)