Biosequenceモジュールのための用語

変更日木, 6 10月, 2022 で 8:52 午前

Alignment Identity ％アライメント一致率：アライメント長に対するマッチ率。例では、
63/(63+49)×100=56.2%

BLAST：Basic Local Alignment Search Toolの頭文字をとったもの。BLASTは、生物学的配列間の類似領域を見つけるツールです。塩基配列やタンパク質配列（クエリ）とデータベース内の配列（サブジェクト）を比較し、統計的な有意性を計算するプログラムです。詳細はこちらをご覧ください。

E-value：BLASTのE‐value（Expectation valueまたはExpect value 期待値）は、アライメントが偶然に発生した確率を示す指標です。実際には、E-valueは常に、非常に短い配列では非常に高く（潜在的には数百万）、長い配列では非常に低く（10^-22 、あるいは0）なります。

FASTA形式：ヌクレオチド配列やアミノ酸（タンパク質）配列を表現するためのテキストベースのフォーマットで、ヌクレオチドやアミノ酸は1文字のコードで表現される。また、配列の前に配列名やコメントを付けることができる。詳細はこちらをご覧ください。

Gap：クエリ配列やサブジェクト配列において、ある配列の挿入や削除を補正するために導入されるスペース。アラインメントにギャップが蓄積されるのを防ぐため、ギャップを導入するとアラインメントスコアから一定量（ギャップスコア）が減算される。また、ギャップを広げて、さらにヌクレオチドやアミノ酸を含めると、アラインメントのスコアでペナルティーされます。

HSP : High-scoring Segment Pair (HSP)は、ある検索で最も高いアライメントスコアを得たローカルアライメントです。 2つの配列を並べると、何百ものギャップやミスマッチのある1つのアライメントではなく、複数のHSPが得られることがあります。

モチーフ検索（Motif）：モチーフ（motif）あるいはパターン（pattern）は配列の一致を表現する方法です。例えば、ATAGAGATGAGAT[GA]TATAGAGAはある位置でGかAが欲しい配列のモチーフです。モチーフ検索は正確な配列（厳密一致）、SNP、タンパク質モチーフ、特定の変異を見つけるのに使うことができます。モチーフ検索の詳細はこちら。

Query Identity %：クエリ長に対するクエリの一致率。例では、63/107×100=58.8% となっています。

以下の他のパーセンテージと同様に、フィルターで利用できます。

Query Coverage %：アラインしたクエリの部分の長さをそのクエリの長さで割ったもの。

この例では (107-1+1)/107×100=100%)

クエリ配列 Query sequence：入力された配列、つまり「お客様の」問い合わせ配列のことで、検索にかけられた配列を意味します。

SQIDは、私たちのデータベースにある配列の内部番号です。各配列は一意であり、特定のSQIDを持っています。もし2つの異なるファミリーが全く同じ配列を含んでいる場合、同じSQID（同じ色によって）が出力XLSに表示されます。カラーリングは、結果を確認したり、例えばSQIDでグループ化したりするのに役立ちます。

Subject Coverage %：アラインしたサブジェクトの部分の長さを、そのサブジェクトの長さで割ったものです。

この例では (224-114+1) / 225=49.3% となります。

Subject Indetitiy％：クエリ長さに対するサブジェクトの一致率。

この例では、63/225×100=28% です。

サブジェクト配列 Subject sequence：データベース内に存在する配列のこと＝「ヒット」配列

Word size ワードサイズ：2つの配列が完全に一致する絶対最小の長さ。この値は、非常に短い配列の場合に重要である。

Open/Extend gap ペナルティ：最初のギャップとそれに続くギャップに対してスコアに与えられるペナルティ。

Match/Mismatch cost：ヌクレオチド比較の場合のみ、このスコアは2つの同一ヌクレオチドが一致した場合に増加し、一致しなかった場合に減少するスコア。