fasta format

在生物信息学中，FASTA格式是用来记录核酸序列或者肽序列的文本格式，其中的核酸或氨酸均以单个字母编码呈现。

格式

FASTA格式中的一条完整序列，包含开头的单个名称描述行和多个序列数据行。每一行字符数通常不超过80字符。

描述行

行首以>开头，用于和数据行区分。>后面为序列标识符，该行剩余部分为描述部分。序列标识符SeqID在NCBI FASTA定义的行的格式：

数据库	格式
GenBank	gb\|accession\|locus
EMBL Data Library	emb\|accession\|locus
DDBJ, DNA Database of Japan	dbj\|accession\|locus
NBRF PIR	pir\|\|entry
Protein Research Foundation	prf\|\|name
SWISS-PROT	sp\|accession\|entry name
Brookhaven Protein Data Bank	pdb\|entry\|chain
Patents	pat\|country\|number
GenInfo Backbone Id	bbs\|number
General database identifier	gnl\|database\|identifier
NCBI Reference Sequence	ref\|accession\|locus
Local Sequence identifier	lcl\|identifier

数据行

序列可以表示蛋白质序列或者核酸序列，以标准的IUB/IUPAC氨酸和核酸编码表达：

核酸编码：
- A 腺嘌呤(Adenine)
- C 胞嘧啶(Cytosine)
- G 鸟嘌呤(Guanine)
- T 胸腺嘧啶(Thymine)
- U 尿嘧啶（Uracil)
- R 嘌呤(puRine)即A、G
- Y 嘧啶(pYrimidines)即C、T、U
- K 酮基(Kntones) 即G、T、U
- M 氨基(aMino) 即A、C
- S 强(Strong)结合力即C、G
- W 弱(Weak)结合力即A、T、U
- B 非A（如C、G、T、U)(A后边为B)
- D 非C (如A、G、T、U)(C后边为D)
- H 非G (如A、C、T、U)(G后边为H)
- V 非T非U(如A、C、G)(U后边为V)
- N 即A、C、G、T、U (任意核酸Nucleic acid)
- - 不定长度空白占位符
氨酸编码：
- A 丙氨酸（Alanine）
- B 天冬氨酸（Aspartic acid，D）或天冬酰胺（Asparagine，N）
- C 半胱氨酸（Cysteine）
- D 天冬氨酸（Aspartic acid）
- E 谷氨酸（Glutamic acid）
- F 苯丙氨酸（Phenylalanine）
- G 甘氨酸（Glycine）
- H 组氨酸（Histidine）
- I 异亮氨酸（Isoleucine）
- J 亮氨酸（Leucine，L）或异亮氨酸（Isoleucine，I）
- K 赖氨酸（Lysine）
- L 亮氨酸（Leucine）
- M 甲硫氨酸（Methionine）
- N 天冬酰胺（Asparagine）
- O 吡咯赖氨酸（Pyrrolysine）
- P 脯氨酸（Proline
- Q 谷氨酰胺（Glutamine）
- R 精氨酸（Arginine）
- S 丝氨酸（Serine）
- T 苏氨酸（Threonine）
- U 硒半胱氨酸（Selenocysteine
- V 缬氨酸（Valine）
- W 色氨酸（Tryptophan）
- Y 酪氨酸（Tyrosine）
- Z 谷氨酸（Glutamic acid，E）或谷氨酰胺（Glutamine，Q）
- X 任意
- * 翻译终止
- - 不定长度空白占位符

扩展名

扩展名	含义	备注
fasta (.fas)	普通FASTA	任意普通的FASTA文件；此类扩展名还有fa、seq、fsa
fna	核酸FASTA	普遍用于表示核酸序列的FASTA文件
ffn	核酸编码区FASTA	包含基因组编码区的FASTA文件
faa	氨酸FASTA	包含表示氨酸序列的FASTA文件。含有多种蛋白质序列的FASTA文件还可使用更具体的mpfa扩展名
frn	非编码RNA FASTA	包含以DNA字母编码表示的基因组非编码RNA区（如tRNA、rRNA）的FASTA文件