Orbit Biosequence(OBS)の結果をどのように読むか

変更日月, 18 5月で 10:18 午前

TABLE OF CONTENTS

検索結果と検索配列を確認
- 検索方法を確認（結果が出ない場合）
％IDフィルターで結果を絞り込む
適切な割合（％）のIDとは...

アライメントを簡単に読みたいですか？アライメントの読み方に関するこちらの記事をご覧ください。アライメントをどのように読み取るか

検索結果と検索配列を確認

OBS検索実行を起動する際、ユニークなシーケンスの数を最大数として設定する必要があります。前もってどれだけの結果が得られるかは分からないので、まずはデフォルトのままで実行するか、少し増やして、例えば500くらいに設定してもいいでしょう。結果がでたら、その数が正しいかどうかを確認する必要があります。件数の妥当性を確認するために、最後のページに行き、最も関連度の低い結果をチェックします。それらが、あなたが適正と思う数値以下であれば、あなたが望む件数が得られているはずです。最も関連度の低い結果がまだ十分に良い結果（関連度の高い結果を含む）ものであれば、OBSの実行を再度実行し、ユニークなシーケンスの最大数を増やす必要があります。

詳しくは、配列の検索方法についてをご覧ください。

検索方法を確認（結果が出ない場合）

入力した配列やパラメータが正しくないから結果が0なのか、それとも本当に該当結果がないのか（該当結果０というのは通常良いことです）がわからないと、たしかに心配になります。 MOTIF検索を行った場合、条件が厳し（限定的）すぎるため、結果が0になる可能性が十分あります。間違いがないか確認するために、条件を少し緩めてみることをお勧めします。また、非常に短い配列でBLAST検索を行った場合、設定が原因である可能性があります。非常に短いDNA配列（例：10残基のプライマーなど）や、特に短いCDR（例：5アミノ酸長）の場合は、「short input sequences」を選択し、Max E valueを最大値（5,000,000 (5M)）にする必要があります。これらはよく起こるミスケースです。ご質問や不明点がある場合は、当社のサポートチームがいつでもお手伝いします。詳しくはBiosequence: MOTIF searching をご参照ください。

％IDフィルターで結果を絞り込む

まず、パーセントIDの定義をご説明します。パーセントIDは常に以下の3つに対して計算され、①Query（問い合わせ配列）、②Subject（対象配列）、③Alignment（アラインメント）です。 Query（問い合わせ配列）のパーセントIDは、クエリ残基が一致する割合となります。同様に、SubjectとAlignmentについても計算されます。ギャップがある場合、これは少し不思議な結果に見えるかもしれないですが、例えば、全ての残基が一致するクエリでも、クエリ配列にギャップがあると、クエリの残基の100%が一致することになります。このように、クエリの同一性が100%だからといって、完全に一致する配列が見つかるわけではありません。
では、どちらを使うべきなのでしょうか？

例えば、一つのクエリーまたは複数のクエリーに類似したSubject 配列（対象）を見つけたいとしましょう。この場合、queryとsubjectのパーセントIDを共に高い値、例えば80に設定することができます。これにより、すべてのヒットが非常に近いもの、つまり、queryとsubjectが互いに非常に類似していることが保証されます。もう一つのケースは、1つまたは複数の短いクエリがあり、それらを対象の配列（例えばCDRや鎖を想定）に埋め込みたい場合です。この場合、query に対する% ID のみを設定することになります。

適切な割合（％）のIDとは...

残念ながら、これはよく聞かれる質問ですが、この質問に対する正しい答えはありません。

ある特許では70％の同一性かもしれませんし、ある特許は90％の同一性かもしれません。

配列が非常に短い場合は、ミスマッチの数や特定の置換の数が言及されたり、クレームされたりします。大まかに言えば、Queryや対Subjectに対して80％のidentityがあれば、一般的に良い割合と考えられますが、これもケースバイケースです。

出力できるヒット値は？

以下の表で出力可能な値フィールドをご確認ください。

SQID	A unique number for a unique sequence. The cell is color-coded such that 2 identical SQIDs (i.e. sequences) have the same color.
Query with hits	The full name of the query sequence
PN-SEQID	The patent number - sequence number (SEQ ID NO)
Claimed in	If not empty, it lists the claims in which the SEQIDNO is mentioned
Organism	If available in the ST5/ST26 sequence listing, the Organism field is listed
Features	If available, any extra feature from the ST25/ST26 is shown
%query	The percentage identity over the query computed as : 100 times the number of matching residues divided by the query length
%subject	The percentage identity over the subject computed as : 100 times the number of matching residues divided by the subject length
%alignment	The percentage identity over the alignment computed as : 100 times the number of matching residues divided by the alignment length
Coverage query	The percentage of the Query covered by the alignment
Coverage subject	The percentage of the Subject covered by the alignment
E-value	The expect value
Blast score	The Blast score
Frame/strand query	The frame for a nucleotide sequence translated into amino acids. Values are -3,-2,-1,+1,+2,+3. For a nucleotide sequence untranslated, the strands can be FOR (forward) or REV (reverse complement). A protein sequence is always FOR.
Frame/strand subject	The frame for a nucleotide sequence translated into amino acids. Values are -3,-2,-1,+1,+2,+3. For a nucleotide sequence untranslated, the strands can be FOR (forward) or REV (reverse complement). A protein sequence is always FOR.
Original query from	Before any translation or reverse complement, the beginning of the alignment for the query
Original query to	Before any translation or reverse complement, the end of the alignment for the query
Original subject from	Before any translation or reverse complement, the beginning of the alignment for the subject
Original subject to	Before any translation or reverse complement, the end of the alignment for the subject
In frame/strand query from	After translation or reverse complement, the beginning of the alignment for the query
In frame/strand query to	After translation or reverse complement, the end of the alignment for the query
In frame/strand subject from	After translation or reverse complement, the beginning of the alignment for the subject
In frame/strand subject to	After translation or reverse complement, the end of the alignment for the subject
Number of gaps	The number of gaps (query or subject) in the alignment
Number of errors	The number of gaps (query or subject) and mismatches in the alignment
Alignment size	The size of the alignment
Subject size	The subject size

その他のフィルターについて

その他のフィルタとその用途をご紹介します。

o エラーの数

- これはアライメントにおけるエラーの数で、エラーとはミスマッチやギャップのことです。アライメントの品質をより細かく制御するために使用することができます。

o ギャップの数

- ギャップがあるアライメントとないアライメントを分けたい場合。

o 請求項に限定

- 請求項に記載された配列のみが結果として表示されます。

o クエリの名前

- 複数のクエリー配列を使用している場合、全てまたは一部のクエリー名を選択すると、選択した全てのクエリーがヒットするファミリーのみが表示されます。これは、対象のCDR全てにヒットするファミリーを見つけたい場合に特に有効です。

o subject length（対象の長さ）とalignment length（アラインメントの長さ）

- これらのフィルタは、subjectやalignmentの長さに適用されます。 MOTIF検索で発生する長いサブジェクト（ゲノムの部分配列など）や非常に長いアラインメントを統制するために使用します。

o Organism 有機体

- ある時点までの特許の配列に紐づく生物名を、正規化しています。完全なシステムではありませんが、アラインメントされた配列をより細かく統制することができます。

詳しくはBiosequence specific filtersをご覧ください。

OBS固有のカラムと表示についてはこちら

FAMPAT のカラム（Title, Assignee, ...）の隣に表示できる OBS 独自のカラムが 7 つあります。ファミリー行の上にある「表示」メニュー（プリンターマークの隣）で、どのカラムを表示させるかを制御します。なお、これらの数値は、結果を開いたときに一度だけ計算されます。その後のフィルタリングでは、これらの静的な数値は変更されません。

・Best %QID

　＝このファミリーのクエリに対する最大の％ID

・Claimed seq.

　＝ Yes or no: ヒットした主題配列がクレームに言及されているか？

・ Unique seq. hits

　＝ヒットしたユニークなシーケンスの数

・ Longest Alignment

　＝最長のアラインメント

・Nb pub. w/ hits

　＝複数のクエリを使用した場合、このファミリーでヒットしたクエリの数。

・Nb pub. w/ hits

　＝同じヒットを持つファミリー内の異なる公報の数。

・List of queries w/ hits

　＝ファミリーでヒットしたクエリの名前。

アライメントタブ：配列のパワフルな表示

右側のアライメントタブは、使用したフィルターによって動的に再計算されます。現在ハイライトされているファミリーのアライメント情報が表示されます。

最初にヒットしたクエリーが表示され、次にこのファミリーの公報、公報ごとのヒット数、この公報に記載された配列の総数が表示されます。

これらのヘッダに続いて、クエリ名が表示されます。その左側にある小さな三角形をクリックすると、その関連するクエリに続くアラインメントを開いたり閉じたりすることができます（例えば、他のクエリのヒットを見る場合など）。

アラインメントエリアは、「sequence」、公報のリスト、SEQ ID NOから始まります。このsequenceはこのファミリーにおいて共通で、リストされたすべての公報とSEQ ID Nosの組み合わせに共通するものです。sequenceという言葉をクリックすると、小さなウィンドウがポップアップし配列のローデータが表示されます。

アラインメントは2つの形式で表示されます。グラフィカルな表示と、「Details」をクリックすると、従来のテキストによるアラインメントが表示されます。グラフ表示では、多くの情報を可能な限り見やすく表示することができます。クエリー配列とサブジェクト配列のサイズ、アライメントの開始点と停止点、フレームまたはストランド（FWは順方向、REVは逆方向の補集合、-3から+3は順方向と逆方向の補集合フレーム）、エラー数とマッチ数、BlastスコアとE値が含まれます。なお、座標は特定のフレームで使用されている場合でも、常に元の配列座標となります。

詳細アライメントは、よりテキストに近く、アライメントの特徴（ギャップ数、...）や、クレームの状況、有機体（生物）など、各公開段階の詳細などが続きます。

詳しくは、アライメントの読み方をご覧下さい。

最後に、ご質問や不明な点がございましたら、ご遠慮なく弊社サポートチーム（help@questel.com）にお尋ねください。