Qu'est-ce qu'un format FASTA ?

Modifié le Dim, 29 Août, 2021 à 10:42 H

Le format FASTA est un format textuel permettant de représenter des séquences de nucléotides ou d'acides aminés (protéines), dans lequel les nucléotides ou les acides aminés sont représentés par des codes à une lettre. Ce format permet également de faire précéder les séquences de noms de séquences et de commentaires. Cette ligne de description commence par un '>' et donne un nom ou un identifiant unique à la séquence. Elle peut également contenir des informations supplémentaires.

Un exemple plus complet est présenté ci-dessous. Il contient des identifiants, des descriptions et des séquences multiples.A more complete example is shown below. It contains identifiers, descriptions and multiple sequences.

>sp|J7RUA5|CAS9_STAAU Start of CRISPR-associated endonuclease Cas9 OS=Staphylococcus aureus

MKRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRR

RHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHN

VNEVEEDTGNELS

>sp|Q99ZW2|CAS9_STRP1 Start of CRISPR-associated endonuclease Cas9/Csn1 OS=Streptococcus pyogenes

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAE

ATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFG

NIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD

VDKLFIQLVQT

>sp|G3ECR1|CAS9_STRTR Start of CRISPR-associated endonuclease Cas9 OS=Streptococcus thermophilus

MLFNKCIIISINLDFSNKEKCMTKPYSIGLDIGTNSVGWAVITDNYKVPSKKMKVLGNTS

KKYIKKNLLGVLLFDSGITAEGRRLKRTARRRYTRRRNRILYLQEIFSTEMATLDDAFFQ

RLDDSFLVPDDKRDSKYPIF

Un identifiant est composé de caractères alphanumériques, de _ (tirets bas) et de - (traits d'union). Ne pas mettre d'espaces dans un identifiant.