在线课程

您当前的位置 : 首页 > 在线课程> > 生物信息分析师
数据格式

课时总数 : 40分钟|学习有效期30天

课程简介
\

讲师:李老师    资深生物信息分析工程师
 
目录
 
序列信息存储
比对信息存储
变异信息存储
变异信息注释
 


在生物信息学领域中主要是各种大量序列数据、注释数据等,这些都是有特定的格式去表示,下面列举几种常见的格式。

fasta

fasta格式是最基本的表示序列信息(核苷酸或者蛋白质)的格式。 h这里简单介绍下,fasta格式的文件通常后缀名为.fasta 或者.fa, 其实这都无所谓,因为都是文本文件。fasta格式文件(可以包含多条序列)中的一条序列的通常表示方法如下:
\


fastq

fastq同样是以文本形式来存储序列信息的格式,后缀名通常为.fastq 或者.fq,但是与fasta不相同的是,它除了存储序列本身外还存储了序列中每个单元所对应的质量分数,所以fastq格式通常用于高通量测试数据的存储。早期是有Sanger机构开发的,但是现在已经演变成一个高通量测序的标准了。 
fastq格式文件中一个完整的单元分为四行,每行的含义如下: 
第一行: 以@开头,内容同fasta的描述行类似 
第二行:具体的碱基序列 
第三行:以+开头,后面的内容可以和第一行类似,也什么都没有只留+ 
第四行:以ASCII字符集(分数)编码来表示对应碱基的测序质量 
比如下面的这个例子:


\

gff2

GFF(General Feature Format)是一种用于描述基因或者其它序列元素的文件格式,GFF有几个版本,早期的第Version 2和现在的Version 3. Version 2 是由Sanger机构所制定的,而Version 3是由Sequence Ontology Project制定。正是由于有统一的格式来表示基因等元素,使得GFF格式的文件被广泛的使用与mapping与基因组数据可视化方面。 
GFF2文件格式是由tab隔开的九列值,如下:

Chr1  curated  CDS 365647  365963  .  +  1  Transcript "R119.7"

gtf(gff2.5)

GTF(Gene Transfer Format)格式是借鉴于GFF2格式,也被称为GFF2.5,大部分字段的定义是和GFF2相同的,只是每行的第九列必须带有如下四个域,具体为gene_id value; transcript_id value; 这样的设计是为了适应一个基因的多个转录本这种情况。比如下面的这个例子:

AB000123    Twinscan     CDS    193817    194022    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    199645    199752    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    200369    200508    .    -    1    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    215991    216028    .    -    0    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     start_codon   216026    216028    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     stop_codon    193814    193816    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";

gff3

GFF2格式早期用的比较多,但是现在用的多的是GFF3格式,这也是好多软件所支持的,比如Gbrowse, Jbrowse等基因组数据可视化工具。 
例如:

##gff-version 3
ctg123  .  exon  1300  1500  .  +  .  ID=exon00001
ctg123  .  exon  1050  1500  .  +  .  ID=exon00002
ctg123  .  exon  3000  3902  .  +  .  ID=exon00003
ctg123  .  exon  5000  5500  .  +  .  ID=exon00004
ctg123  .  exon  7000  9000  .  +  .  ID=exon00005

sam/bam

在生物信息学中尤其是高通量测序数据分析中,大部分的操作都是在实现短片段序列与参考序列的比对(mapping),比如bowtie等,这就涉及到如何使用一个统一的格式来表示这种mapping结果呢,sam(Sequence Alignment/Map)格式就是来解决这个问题的。sam文件拥有头部描述和详细比对两部分,其中头部描述是以@开头,后面紧跟两个缩写字母表示相应的含义,SAM分为两部分,注释信息(header section)和比对结果部分(alignment section),注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序;@SQ,参考序列说明;@RG,比对上的序列(read)说明;@PG,使用的程序说明;@CO,任意的说明信息。而详细比对部分是通过11个tab隔开的字段来表示。 
这里写图片描述

vcf

vcf(Variant Call Format)格式是用于表示突变信息的文本格式,可以用来表示single nucleotide variants, insertions/deletions, copy number variants and structural variants等。VCF格式同样是分为两大部分,一部分是注释描述信息,一部分是具体的突变信息,其中注释信息是以##开头的 
这里写图片描述
 


数据格式

法律声明|公司概况

Copyright © 2016 中关村华康基因研究院培训 . All Rights Reserved京ICP备18042576号-2