yuisekiのブックマーク - はてなブックマーク

Cytoscapeでchemoinformatics

Chemviz2を使い始めたのでメモインストール Cytoscapeのサイトから3.xの最新バージョンをダウンロードしてインストール Apps -> App ManagerからChemviz2を探してインストール使ってみる pychem bl dbを使ってノード用の属性ファイルとnetworkファイルを作った。ネットワークはとりあえずランダムにつないでみた。 Cytoscapeを起動して"network.sif"をインポート。続いてテーブルファイルとして"node.csv"をimport プライマリキーはsmilesにする。構造描画の設定はApps -> Chemoinformatics Tools -> SettingsでSmiles Attributesをnode.shared.nameを選んでおく。構造描画するときには右クリックしてオプションダイアログのApps -> Chemi

yuiseki 2014/08/18

リンク

あらかじめクラスタ数を決めないでクラスタリングする方法(Affinity Propagation)

K-meansのように予めクラスタ数を指定すると、「そのクラスタ数は正しいの？」っていう疑問が浮かぶと思う。「なんらかの統計値に基づいて適切なクラスタに分割して欲しい」そんな願いを叶えるのがAffinity Propagationというクラスタリングアルゴリズムである exemplara(セントロイドとかクラスタ中心)になるべきパラメータ(responsibility)とクラスタメンバに属しやすさ(availability)を交互に更新していって収束させる手法なので、K-meansのような初期値依存性がないらしい。クラスタ数は類似度行列の対角要素（自分との類似度）に依存する（デフォルトはmedian）のでここを変更するとクラスタ数も変わるんだけどね。 Scikit-learnではAffinity Propagationが実装されているのでsykのケミストリースペースを作ってクラスタリン

yuiseki 2014/07/09

tech

リンク

SQLAlchemyのmany-to-manyであるタグを含むエントリをフィルタする方法

単にタグを含むエントリを取ってくる場合にはこうやればいいんだけど、さらに絞り込む場合にどうやればいいのか悩んだ。

yuiseki 2014/07/03

tech

リンク

SQLAlchemyのmany-to-manyのsecondaryにunique制約をかけたい

同じ外部キー同士の組み合わせが重複して登録されないようにしたい。Objectでチェックするよりはデータベースに任せたかったのでこんな風にしてみた。 patents_tags = db.Table('patents_tags', db.Column('tag_id', db.Integer, db.ForeignKey('tag.id')), db.Column('patent_id', db.Integer, db.ForeignKey('patent.id')), db.UniqueConstraint('tag_id', 'patent_id', name='tag_patent') )

yuiseki 2014/07/03

tech

リンク

逆引きPandas (Matrix編)

>>> x = pd.DataFrame([[1,0],[-2,3]]) >>> y = pd.DataFrame([[-1,1],[4,2]]) >>> x.dot(y) 0 1 0 -1 1 1 14 4 >>> x * y 0 1 0 -1 0 1 -8 6 x %o% y はわからない逆行列もnumpyに頼る感じ行列の次元ごとに演算を適用する applyでaxisで行か列かを選択する。applyはよく使う >>> x 0 1 0 1 0 1 -2 3 >>> x.apply(sum, axis=0) #colsum 0 -1 1 3 dtype: int64 >>> x.apply(sum, axis=1) #rowsum 0 1 1 1 dtype: int64

yuiseki 2013/12/26

リンク

逆引きPandas (ベクトル編)

pandas本はpandasの話がメインなので逆引きがないのが辛いかなと思う。pandasに慣れると手放せないけど☆

yuiseki 2013/12/25

リンク

Flaskが面倒くさくなる時

最近Flaskでユーザーのロールを実装する必要があってさすがにちょっと面倒くさくなってきた。 Blueprintはまぁ許せるけど、フォームとモデルの連携とかフォームバリデーションとか大きくなればなるほど、フルスタックのほうがやりやすいよなーと。しかしながら、そもそもFlaskに揺れた経緯がフルスタックなフレームワークのキャッチアップ辛いという反省からだったので、なんか一周した気もする。ちなみにその当時使っていたCatalystは未だにperl5.8.8 + Catalyst5.7014で動かしている（自前プラグインとかの関係）。そして、そもそも同僚はMVCちゃんと理解してない（オブジェクト指向プログラミングすらあやしい）レベルで使っているので見事なスパゲッティPerl風味が出来上がっているｗ結局中身が理解できた上でのフルスタックじゃないと辛いよなぁ。と思いながらRoRにするかDjan

yuiseki 2013/10/17

すごいわかる

リンク

ggplot2のPython実装ができてた

pandasを使い始めてから、「Rのメリットってggplot2だけだよなー」と思っているんだけどggplotが実用的になったら、もうPythonでやりたいことは完結するよなーと思った。ちなみにちょっと動かそうとしたけど、動かなかったので、GitHubの画像を載せておく。あとでコードリーディングする。

yuiseki 2013/10/10

tech

リンク

Python+Selenium+PhantomJSが快適すぎる

Selenium便利なんだけど、ブラウザ立ちあげないといけないのはサーバーで使いにくくて不便だよなと思っていたのだけどPhantomJS使えることを知ったので早速遊んでた。なにやりたいかというとGoogle Patent Searchから特許ID抜き出したいのだけど、Python+Selenium+PhantomJSの組み合わせでできることがわかった。 from selenium import webdriver import time driver = webdriver.PhantomJS() driver.get("https://www.google.co.jp/webhp?hl=ja&tab=ww&authuser=0#authuser=0&hl=ja&q=python") print driver.current_url time.sleep(2) driver.save_sc

yuiseki 2013/09/18

tech

リンク

RoRに入門している

先週末にコメダでFlask談義をしていた時に、@ando_ando_andoに浮気しているとか言われたんだけど、RedmineもFastladderもRails使ってんだからしょうがないじゃんと答えておいた。というわけで、最近Railsを学んでいる。

yuiseki 2013/09/05

tech

リンク

twitterのリプライ頻度を可視化する

python+pandasで全部やればいいんだけど、ggplotが使いたかったので。とりあえず全件取ってきた状態で import csv tweets = csv.reader(open("tweets.csv")) print "Date\tMessage" for tweet in tweets: if "[[user_id]]" in tweet[7]: print "{}\t{}".format(tweet[5].split()[0], tweet[7]) library(plyr) library(ggplot2) library(scales) setwd("/Users//kzfm/lang/rcode/tw") tweets <- read.delim("data.tsv", sep="\t", stringsAsFactors=FALSE, header=TRUE) t

yuiseki 2013/08/14

tech

リンク

Rによるバイオインフォマティクスデータ解析　第2版 -Bioconductorを用いたゲノムスケールのデータマイニング

内容はバイオインフォマティクスに限らずに割と広い内容をカバーした感じで、クックブックと逆引きの中間的なスタイルと言えば良いのだろうか？ Rのインストールから基本的な操作は（大体どの本にもあるように）載っていてデータマイニングとしては PCA ICA PLS MDS SPE k-means,Fuzzy cmeans spectral clustering NMF SOM decision tree kNN SVM RF LASSO MARS がサンプルコードとともに簡潔に説明されている。 8章はバイオ系データの解析、チップとか。odesolveを利用したシミュレーションのサンプルもあって、SBMLRは面白そうだなぁと思った。メカニズムがどうなっているのかはモデルと実験系の不一致をよく突き詰めて考えることでしかきちんとした理解は得られないと思っている。最後のほうの章は統合環境、データベース

yuiseki 2013/08/14

tech

リンク

PhantomJSでスクレイピングするのがいいのかわるいのか？

PhantomJSを触ってみたけど、スクレイピングというか自動化するならWWW::Mechanize::Firefoxのが使いやすいなぁと思った。 CasperJSを使うのがよさそうなんだけど、node.jsから使えないしなぁ。例えばデータベースからurlリストを引っ張ってきて次々にアクセスしたいといった用途の場合、PhantomJSだったらphantomjs-nodeを使うらしいんだけどCasperJSはそういうことができるんだろうか？と思って調べたら、SpookyJSというものを見つけたんだが、PhantomJSが1.8からwebdriverをサポートするようになったからそっち使えみたいな感じになっている。結局pythonでselenium使うのが正解なのか？ていうかseleniumでいいじゃんみたいな気分になっている。

yuiseki 2013/08/03

リンク

GitHub版Fastladderをインストールしてみた

5年くらい動かしているオープンソース版Fastladderだけど、この５年のうちにヒトの異動なんかでゴミユーザーが溜まりまくったり、メンテも大変だったり（今はsupervisordで動かしている）と、そろそろ新しくしたくなったので、昨日今日で仮想環境から稼働までさせた。尚OSはFedora17で、FastladderはGithub版です。 Rubyのインストール 2.0.0-p247を入れたんだけど、OS側のライブラリのヘッダファイルが足りなくて何度もコンパイルしなおしたのでストレスフルだった。ちなみにrbenvは使ってない。 yum install sqlite sqlite-devel yum install zlib zlib-devel yum install openssl openssl-devel yum install libxml2 libxml2-devel yum

yuiseki 2013/08/01

tech

リンク

pandasからmatplotlibを使う方法とバッチでハマった話

plotというメソッドが用意されているので楽ちんと思ったがバッチの処理をさせたら同じ画像ばっかり生成されて小一時間ハマった。いつものようにsofによるとcloseが必要らしい。 for experiment in experiments: exp.data.plot(x="Date", y="Val", style="ro", ) savefig("static/images/{}.png".format(exp.name)) close()

yuiseki 2013/07/24

tech

リンク

RでWebアプリの作れるShinyというライブラリ

@harumakiyukkoがShinyをtweetしてたので、今週末の読書会のサンプルコードをShinyで書くかと思ったんだけど、よさげな題材が見つからなかったので保留中。 Tutrial はじめてのShiny これは分析者のための分析者による分析者のためのウェブアプリなので、非分析者との橋渡しにはならないだろうな。

yuiseki 2013/07/21

tech

リンク

入門機械学習の6,7章を読んだ

3連休の初日はグダグダしていたのだけど、残りの2日はそれなりに時間を確保してひと通り読んだので、積み残したところをメモヘルドアウトデータって言い方あまり聞いたことなかった Rのoptim関数 curve(sapply( func...))がちょっと良くわからんので調べるリッジ回帰を理解した。というよりバイアス-バリアンス分解がちゃんと分かった気が .Machine$double.eps 暗号解読のコードを走らせると30分くらいかかる PRML読みなおす

yuiseki 2013/07/15

リンク

CoffeeScriptのsplatsの挙動がわからないと思ったがやっぱわかった。

コッココッココココココッヒーな脳になってます。 splatsとはこれです。最大値を返す関数を例にとります。まずはNode.jsで > Math.max(1,9,7,4,2,6) 9 > Math.max([1,9,7,4,2,6]) NaN > Math.max.call(null,1,9,7,4,2,6) 9 > Math.max.apply(null,[1,9,7,4,2,6]) 9 coffee> Math.max 1,9,7,4,2,6 9 coffee> Math.max.call @, 1,9,7,4,2,6 9 coffee> Math.max.call null, 1,9,7,4,2,6 9 coffee> Math.max.apply @, [1,9,7,4,2,6] 9 coffee> Math.max.apply null, [1,9,7,4,2,6] 9 cof

yuiseki 2013/07/12

リンク

Python Testing Cookbook

Python Testing: BeginnerはユニットテストとかTDDの習得に主眼を置いているのに対し、本書はもうちょっと広くて高度な内容を取り扱っている。 BDDとか受け入れテストとか(Jenkinsを使った)継続的インテグレーションとかテストのカバレッジとかスモークテストなんか。最終章の「良いテストの習慣」はなかなかいい言葉がまとまっている（ような気がする） Something is better than nothing Coverage isn't everything Be willing to invest in test fixtures Harvesting metrics こんなかんじで12の習慣が。個人的に良かったのがBDDの章であった。本書ではnose+mockitで説明されてた。ちなみに僕はpyVowsを使っています(Node.jsにVowsがあるので)。

yuiseki 2013/07/03

リンク

Python Testing: Beginner

pythonでのテストの本 doctestの使い方に始まり、doctestでのモックの使い方(mockerライブラリ)を学んだらdoctestでは不十分なユニットテストをUnittestライブラリを使ってテストする。続いてNoseでdoctestとunittestを統合することを学びつつ、TDDの話しへ。ほんでもって、twillを使ったwebアプリのテストのやり方をざっと紹介して、integration test, system testっていう流れ。

yuiseki 2013/07/03

リンク

はてなブックマーク

タグ

ブックマーク / blog.kzfmix.com (56)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス