サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
bi.biopapyrus.jp
2021.03.30 char 型 C 言語では、文字を取り扱う場合に、char 型を利用する。char 型の変数のサイズは 1 バイトと決められているので、1 つの変数には 1 文字しか保存できない。 #include <stdio.h> int main(void) { char a = 'D'; char b = 'N'; char c = 'A'; printf("%c%c%c\n", a, b, c); // DNA return 0; } 複数個の文字からなる文字列の場合は、char 型の配列を利用する。この場合、配列のサイズは、変数を宣言するときに決める必要がある。char 型の配列に文字列を格納する場合、文字列の最後にヌル文字 \0 を入れる必要がある。次のようにダブルクオーテーションマークで変数を作成する場合は、自動的にヌル文字が文字列の終端に挿入されるが、シングルクオー
この結果から Ubuntu の識別子(identifier)は、{c1dc5bea-0aa0-11e9-b747-806e6f6e6963} であることを確認できる。続けて、bcdedit /delete コマンドを実行して、Ubuntu をブートメニューから削除する。
2023.11.27 Linux には、etc、usr、srv や home などの不思議な名前をしたディレクトリが多く存在する。これらの名前はほとんど英語やラテン語の略となっている。例えば、etc はその他を意味する et cetera の略で、srv は served の略で、usr に関しては諸説があり user の略あるいは Unix system resources の略と言われている。これらのディレクトリは、名前通りそれらに関連する機能を提供するために利用される。多くのディレクトリの中で、特にユーザーがよく利用するディレクトリは home である。ユーザーがデータを保存したり、作業をしたりする場所は、home ディレクトリの下に個々のユーザー向けに作られたディレクトリである。
grep の使い方 マッチングした行を出力する sample.fa ファイル中に文字列 NM_ を含む行を検索し、マッチングすればそれを出力する。 grep "NM_" sample.fa sample.fa ファイル中に文字列 NM_ または nm_ を含む行を検索する場合は、大文字・小文字を区別しないオプション i を利用する。 grep -i "NM_" sample.fa grep でマッチングした行が画面上に出力される際に、パソコンの設定によるが、マッチングした部分がハイライトされたり、されなかったりする場合がある。マッチングした部分を明示的にハイライトさせたい場合は、--color オプションを付ける。 grep --color=always "NM_" sample.fa マッチングしなかった行を出力する 指定したパターンにマッチングしなかった行を出力させるには、-v オプシ
2023.12.01 sed は、テキストの置換処理を行う目的で作られたスクリプト言語である。ほとんどの場合、1 行のスクリプトを記述だけで、テキストの置換などをはじめとして、後方参照を利用した置換などの複雑な処理も可能である。インターネットで one-liners for sed などと検索する、様々な処理を 1 行の sed スクリプトで行う例を多く見つけることができる。 文字列置換 sed コマンドを利用して、文字列の置換を行うとき、sed コマンドに続いて -e オプションを付けて、その後ろに置換パターンなどを書く。 基本的な置換方法 例えば、sample.fa ファイル中の、各行に出現する最初の TAG を * に置換する場合は以下のようにする。 sed -e 's/TAG/*/' sample.fa 各行に出現するすべての TAG を * に置換する場合は以下のように g を付
2021.04.06 ファイルを取り扱うとき、ファイルの名前と文字コードを同時に指定することが推奨される。ファイルを開くとき、open をそのまま利用しても良いが、より安全な方法として with 文とともに用いる。with 文を用いることで、プログラムがファイルの読み込み中に異常終了しても、ファイルが自動的に正しく閉じられる。 ファイルの読み込み 次は、PDB ファイル(1ALK.pdb)を読み込み、3 文字のアミノ酸コードを抽出する例である。アミノ酸コードは SEQRES 行にかかれているため、if 文を利用して SEQRES 行を探して、データを取得する。 aa = '' with open('1ALK.pdb', mode = 'r', encoding = 'utf-8') as fh: for buff in fh: if buff[0:6] == 'SEQRES': buff
2021.03.30 Python はテキスト処理、機械学習や計算科学などの分野でよく用いられるプログラミング言語である。科学計算を行う強力なモジュール numpy や scipy などのが存在する。また、Python は文法が簡単で、プログラミング初心者が親しみやすい言語といえる。 Python をバイオインフォマティクスのツールとして利用するには以下のモジュールをインストールしておくと便利である。 pip3 install numpy pip3 install scipy pip3 install pandas pip3 install cairocffi pip3 install matplotlib pip3 install pysam ## pip2 install htseq なお、科学計算、統計やグラフの描き方などのデータ解析関連の使い方は同サイトの biostatistic
2020.04.15 blast は、入力配列と相同性(ホモロジー)のある配列を検索するツールの一つである。もう少し具体的に言えば、塩基配列あるいはアミノ酸配列が入力されると、blast はデータベースの中から、入力配列に似た配列を検索して出力してくれるツールである。データベースは、冗長性のない RefSeq 配列や特定の種(ヒトやマウス)の cDNA 配列から作る。また、独自に集めた配列もデータベース化することができる。blast に似た相同性検索ツールとして、FASTA や LAST などがある。 blast にはウェブ版とスタンドアローン版がある。ウェブ版は、NCBI Blast ウェブサイトで使用できる。入力配列を NCBI Blast ウェブサイトのフォームに貼り付けて、データベースを選べば、blast による検索が行われる。一方で、スタンドアローン版は、NCBI FTP レポジ
2021.04.06 Python は文字列の結合、切り出し、置換、正規表現による検索や後方参照などをサポートしている。正規表現による検索を行う場合は、re モジュールをインポートする必要がある。 文字列の結合 2 つの文字列の結合して、1 つの文字列にするとき、+ を用いる。 dna_1 = 'AGCTACGTAGTATT' dna_2 = 'ATGCTAGCAAATATATAAAA' dna = dna_1 + dna_2 print(dna) ## AGCTACGTAGTATTATGCTAGCAAATATATAAAA リストの要素を結合して 1 つの文字列のする場合は join メソッドを用いる。その場合、2 つの文字列を結合する場合、どんな文字を利用して結合するのかを指定することができる。 dna = ['AGCTACGTAGTATT', 'ATGCTAGCAAATATATAAAA
バイオインフォマティクスは、膨大で複雑なデータに埋もれている生命現象を、情報科学や統計学などのアルゴリズムを用いて解き明かしていく、生命科学と情報科学の融合分野である。RNA/DNA シークエンシング技術を利用した遺伝子発現量解析、ゲノム解読、ゲノムワイド関連研究(GWAS)、分子動力学シミュレーションによるタンパク質構造解析、機械学習を利用した分子機能予測などの研究が行われている。 システム・プログラミング言語 バイオインフォマティクスの研究ではコマンド操作やプログラミングしやすい Linux あるいは Macintosh などがよく使われている。また、プログラミング言語に関しては、機械学習や科学計算ならば Python、塩基配列やアミノ酸配列などの文字列処理ならば Python/Perl、統計解析や比較トランスクリプトーム解析ならば R などのように、目的に応じて使い分けることが多い。
2021.03.30 情報量は「場合の数」の比を対数化したものである(情報の分野で、対数底として 2 を用いる)。例えば、コドンを一つ想定したとき、単にコドンと言われると、その取りうる場合の数は 4×4×4 = 64 通りとなる。次に、「コドンの 1 番目の塩基は T です。」という情報が得られたとする。この情報を知った後、コドンの取りうる場合の数は 1×4×4 = 16 通りになる。「コドンの 1 番目の塩基は T です。」という情報を知る前は 64 通り、知った後は 16 通りになる。このとき、「コドンの 1 番目の塩基は T です。」という情報の情報量は log(64/16) = 2 のように計算される。このように、情報量はある情報を「知る前の場合の数」と「知った後の場合の数」の比を対数化したもので定義される。 \[ p = \log\frac{\text{事前の場合の数}}{\te
このページを最初にブックマークしてみませんか?
『生命情報科学 | バイオインフォマティクス | 生物情報科学』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く