Vous pouvez rechercher avec un motif. La recherche d'un groupe de CDR, de motifs peptidiques spécifiques ou de SNP n'a jamais été aussi simple.
Syntaxe des motifs
La syntaxe étendue est la suivante :
- Une lettre correspondant à elle-même (les caractères d'ambiguïté sont développés)
- . (point) pour toute lettre
- ? pour l'entité précédente 0 ou 1 fois
- * pour l'entité précédente 0 ou plusieurs fois
- + pour l'entité précédente 1 ou plusieurs fois
- [ ] qui contient une liste de lettres alternatives
- [^] signifie ne correspondre à aucun des caractères après le ^
- ( ) pour regrouper les entités
- (|) pour les alternatives
- {n} où n est un nombre. L'entité précédente correspond exactement n fois.
- {n,m} où n et m sont des nombres. L'entité précédente correspond au moins n fois et au plus m fois. n ou m peuvent être vides, ce qui signifie un nombre quelconque. {1,5} : de 1 à 5 fois.
- ^ signifie doit commencer par : ^ATC : doit commencer par ATC
- $ signifie doit s'arrêter par
- Les caractères d'ambiguïté de l'ADN et des acides aminés sont entièrement développés. Par exemple, l'ambiguïté B de l'ADN (qui signifie tout sauf A) est développée en [BCGTU], T et U sont développés en [TU], ...
- \X est un cas spécial. Pour les recherches de motifs contre des protéines, cela va trouver un X. Cette notation fonctionne seulement comme \X, mais pas avec \P ou \A par exemple.
Exemples de recherche :
Un motif simple avec un acide aminé alternatif :
[EK]FWEVISDEHGIDPS
3 CDRs with any space in between:
SYWMY.*RIDPNSGSTKYNEKFKN.*DYRKGLYAMDY
Note that .* means any space including none.
Starting alternate triplets (one of which is ambiguous), one to four H or W:
^(DYR|SYW|W.W)EVISDE[HW]{1,4}GID
An exact sequence (starts with ^, ends with $):
^RIDPNSGSTKYNEKFKN$
A list of mutations: S24G, S33T, S53G, S78N, S101N, G128A and L217Q
>motif_WT
^.{23}S.{8}S.{19}S.{24}S.{22}S.{26}G.{88}L
>motif_MUT
^.{23}G.{8}T.{19}G.{24}N.{22}N.{26}A.{88}Q
>motif_BOTH
^.{23}[SG].{8}[ST].{19}[SG].{24}[SN].{22}[SN].{26}[GA].{88}[LQ]
Quand une recherche de motifs est-elle utile (de manière inattendue) ?
Voici quelques cas où une recherche de motifs est utile, auxquels vous n'avez peut-être pas pensé :
- Utilisation d'une séquence extrêmement courte. Blast ne peut pas utiliser des séquences d'acides aminés de moins de 4 résidus. Pour rechercher une séquence de 3 acides aminés, vous devez donc utiliser la recherche de motifs.
- Vous recherchez des cas où votre séquence exacte est trouvée ? Il suffit d'utiliser la recherche de motifs et d'ajouter ^ au début de votre séquence et $ à la fin.
- De même, si vous recherchez les cas où votre séquence est trouvée exactement ou incluse dans une plus grande séquence, utilisez simplement la séquence de requête telle quelle.