Orbit Biosequence(OBS)の結果をどのように読むか

変更日 木, 1 6月, 2023 で 10:48 午前

目次

TABLE OF CONTENTS


検索結果および検索された配列の確認

OBS検索実行を起動する際、ユニークなシーケンスの数を最大数として設定する必要があります。 前もってどれだけの結果が得られるかは分からないので、まずはデフォルトのままで実行するか、少し増やして、例えば500くらいに設定してもいいでしょう。 結果がでたら、その数が正しいかどうかを確認する必要があります。 件数の妥当性を確認するために、最後のページに行き、最も関連度の低い結果をチェックします。 それらが、あなたが適正と思う数値以下であれば、あなたが望む件数が得られているはずです。 最も関連度の低い結果がまだ十分に良い結果(関連度の高い結果を含む)ものであれば、OBSの実行を再度実行し、ユニークなシーケンスの最大数を増やす必要があります。


詳しくは、配列の検索方法についてをご覧ください。


結果が出ない場合は、検索方法を確認してください

結果が出ないとさすがに心配になります。入力した配列やパラメータが正しくないから結果が0なのか、それとも本当に該当結果がないのか(結果が本当に0ならば普通は良いニュースですが)。

MOTIF検索を行った場合、入力した配列モチーフが限定的すぎるため、結果が0になる可能性があります。 モチーフを少し緩めてみて、入力したクエリが間違っていないことを確認するとよいでしょう。 

非常に短い配列でBlast検索を行った場合、設定に起因する可能性があります。非常に短いDNA配列(例:10残基のプライマーなど)や、特に短いCDR(例:5アミノ酸長)の場合は、「short input sequences」を選択し、Max E valueを最大値(5,000,000 (5M))にする必要があります。 これらはよく起こるケースです。 ご質問や不明点がある場合は、私たちのサポートチームがいつでもお手伝いします。


詳しくはBiosequence: MOTIF searching をご参照ください。



%IDフィルターで結果を絞り込む

まず、パーセントIDの定義をご説明します。

 パーセントIDは常に以下の3つに対して計算され、①Query(問い合わせ配列)、②Subject(対象配列) 、③Alignment(アラインメント) です。 

Query(問い合わせ配列)のパーセントIDは、クエリ残基が一致する割合となります。 同様に、SubjectとAlignmentについても計算されます。 ギャップがある場合、これは少し不思議な結果に見えるかもしれないですが、 例えば、全ての残基が一致するクエリでも、クエリ配列にギャップがあると、クエリの残基の100%が一致することになります。 このように、クエリの同一性が100%だからといって、完全に一致する配列が見つかるわけではありません。


では、どちらを使うべきなのでしょうか? 

例えば、一つのクエリーまたは複数のクエリーに類似したSubject 配列(対象)を見つけたいとしましょう。 この場合、queryとsubjectのパーセントIDを共に高い値、例えば80に設定することができます。これにより、すべてのヒットが非常に近いもの、つまり、queryとsubjectが互いに非常に類似していることが保証されます。 もう一つのケースは、1つまたは複数の短いクエリがあり、それらを対象の配列(例えばCDRや鎖を想定)に埋め込みたい場合です。 この場合、query に対する% ID のみを設定することになります。


適切な割合(%)のIDとは...

残念ながら、これはよく聞かれる質問ですが、この質問に対する正しい答えはありません。

ある特許では70%の同一性かもしれませんし、ある特許は90%の同一性かもしれません。 

配列が非常に短い場合は、ミスマッチの数や特定の置換の数が言及されたり、クレームされたりします。 大まかに言えば、Queryや対Subjectに対して80%のidentityがあれば、一般的に良い割合と考えられますが、これもケースバイケースです。


その他のフィルターについて

その他のフィルタとその用途をご紹介します。


 エラーの数

-  これはアライメントにおけるエラーの数で、エラーとはミスマッチやギャップのことです。 アライメントの品質をより細かく制御するために使用することができます。


 o ギャップの数

-  ギャップがあるアライメントとないアライメントを分けたい場合。


 o 請求項に限定

-  請求項に記載された配列のみが結果として表示されます。


o  クエリの名前

-  複数のクエリー配列を使用している場合、全てまたは一部のクエリー名を選択すると、選択した全てのクエリーがヒットするファミリーのみが表示されます。 これは、対象のCDR全てにヒットするファミリーを見つけたい場合に特に有効です。


o  subject length(対象の長さ)とalignment length(アラインメントの長さ)

-  これらのフィルタは、subjectやalignmentの長さに適用されます。 MOTIF検索で発生する長いサブジェクト(ゲノムの部分配列など)や非常に長いアラインメントを統制するために使用します。


o  Organism 有機体

-  ある時点までの特許の配列に紐づく生物名を、正規化しています。 完全なシステムではありませんが、アラインメントされた配列をより細かく統制することができます。


詳しくはBiosequence specific filtersをご覧ください。



OBS固有のカラムと表示についてはこちら


FAMPAT のカラム(Title, Assignee, ...)の隣に表示できる OBS 独自のカラムが 7 つあります。 ファミリー行の上にある「表示」メニュー(プリンターマークの隣)で、どのカラムを表示させるかを制御します。 なお、これらの数値は、結果を開いたときに一度だけ計算されます。 その後のフィルタリングでは、これらの静的な数値は変更されません。


・Best %QID

 = このファミリーのクエリに対する最大の%ID


・Claimed seq.

 = Yes or no: ヒットした主題配列がクレームに言及されているか?


Unique seq. hits  

 =ヒットしたユニークなシーケンスの数


 Longest Alignment 

 =最長のアラインメント


Nb pub. w/ hits 

 =複数のクエリを使用した場合、このファミリーでヒットしたクエリの数。


・Nb pub. w/ hits

 = 同じヒットを持つファミリー内の異なる公報の数。


List of queries w/ hits 

 = ファミリーでヒットしたクエリの名前。



アライメントタブ:配列のパワフルな表示

右側のアライメントタブは、使用したフィルターによって動的に再計算されます。 現在ハイライトされているファミリーのアライメント情報が表示されます。


最初にヒットしたクエリーが表示され、次にこのファミリーの公報、公報ごとのヒット数、この公報に記載された配列の総数が表示されます。


これらのヘッダに続いて、クエリ名が表示されます。 その左側にある小さな三角形をクリックすると、その関連するクエリに続くアラインメントを開いたり閉じたりすることができます(例えば、他のクエリのヒットを見る場合など)。


アラインメントエリアは、「sequence」、公報のリスト、SEQ ID NOから始まります。 このsequenceはこのファミリーにおいて共通で、リストされたすべての公報とSEQ ID Nosの組み合わせに共通するものです。sequenceという言葉をクリックすると、小さなウィンドウがポップアップし配列のローデータが表示されます。


アラインメントは2つの形式で表示されます。グラフィカルな表示と、「Details」をクリックすると、従来のテキストによるアラインメントが表示されます。 グラフ表示では、多くの情報を可能な限り見やすく表示することができます。 クエリー配列とサブジェクト配列のサイズ、アライメントの開始点と停止点、フレームまたはストランド(FWは順方向、REVは逆方向の補集合、-3から+3は順方向と逆方向の補集合フレーム)、エラー数とマッチ数、BlastスコアとE値が含まれます。 なお、座標は特定のフレームで使用されている場合でも、常に元の配列座標となります。


詳細アライメントは、よりテキストに近く、アライメントの特徴(ギャップ数、...)や、クレームの状況、有機体(生物)など、各公開段階の詳細などが続きます。


詳しくは、アラインメントの読み方をご覧下さい。


最後に、ご質問や不明な点がございましたら、ご遠慮なく弊社サポートチーム([email protected])にお尋ねください。


この記事は役に立ちましたか?

それは素晴らしい!

フィードバックありがとうございます

お役に立てず申し訳ございません!

フィードバックありがとうございます

この記事に改善できることがあれば教えてください。

少なくとも一つの理由を選択してください
CAPTCHA認証が必要です。

フィードバックを送信しました

記事の改善におけるご協力ありがとうございます。