Comment convertir un fichier TXT en FASTA

Des études cliniques sont réalisées pour analyser les données de séquences protéiques et trouver des traitements pour les maladies. Les données de séquence de protéines sont mises au format FASTA (fast-all) afin que les logiciels comprennent comment traiter la séquence de données. Le format FASTA comporte jusqu'à 80 caractères par ligne de données de séquence et utilise la norme de code IUB/IUPAC (Union internationale de biochimie/Union internationale de chimie pure et appliquée). La conversion d'un fichier TXT (texte brut) au format FASTA implique la modification ou l'ajout de données de séquence au format FASTA à un fichier texte existant avec des lignes de données de séquence de protéines. Les programmes d'édition de texte comme le Bloc-notes rendent cela simple à faire.

Ouvrez le fichier texte de séquence de protéines que vous souhaitez modifier dans un programme d'édition de texte tel que le Bloc-notes.

Modifiez ou ajoutez la ligne de description pour suivre le format FASTA. Par exemple, >gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) est une ligne de description FASTA valide. Cette ligne fournit une description unique pour les lignes de données de séquence qui suivent. Le format FASTA nécessite l'utilisation du symbole supérieur à (>) afin que le logiciel puisse identifier les informations descriptives uniques et éviter de traiter la description comme une ligne de séquence de données de protéines.

Appuyez sur la touche "Entrée" pour insérer un saut de ligne une fois la ligne de description modifiée.

Modifiez ou ajoutez le format de ligne de données de séquence de protéines pour vous conformer aux codes standard IUB/IUPAC. La norme IUB/IUPAC utilise les lettres de l'alphabet pour représenter des codes ou des séquences de requête acceptables pour les acides aminés ou les acides nucléiques au format FASTA. Par exemple, QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNNSFNVATLPAE représente une ligne de données de séquence valides puisqu'elle commence par la lettre "Q", représentant la glutamine, et se termine par la lettre "E", représentant le glutamate.

Ajoutez plus de lignes de données de séquence, modifiez les lignes de données de séquence existantes ou ajoutez des sauts de ligne après 80 caractères selon les besoins. L'adhésion aux normes de ligne de données de séquence FASTA et aux sauts de ligne garantit que le programme suit les instructions relatives à la glutamine, au glutamate et aux autres codes de lettres. Les lettres de la norme IUB/IUPAC sont simplement des instructions pour le logiciel qui traite les données au format FASTA.

Cliquez sur "Fichier", sélectionnez "Enregistrer" puis cliquez sur le bouton "Enregistrer". Votre fichier TXT est maintenant au format FASTA.