NCBI在线版Blast使⽤(超详细奥)
⾸先进⾏Blast类型的选择:
blastp:将待查询的蛋⽩质序列及其互补序列⼀起对蛋⽩质序列数据库进⾏查询;blastn:将待查询的核酸序列及其互补序列⼀起对核酸序列数据库进⾏查询;blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋⽩质序列,然后将翻译结果对蛋⽩质序列数据库进⾏查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋⽩质序列,然后将待查询的蛋⽩质序列及其互补序列对其翻译结果进⾏查询;tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋⽩质序列,然后再将两种翻译结果从蛋⽩质⽔平进⾏查询。
基本步骤如下:
1,进⼊在线blast界⾯,可以选择blast特定的物种(如下)。不同的blast程序上⾯已经有了介绍。这⾥以常⽤的Blast 中nucleotide blast作为例⼦。
Human ⼈类
Mouse ⼩⿏
Rat ⼤⿏
Arabidopsis    thaliana 拟南芥
Oryza sativa    ⽔稻
Bos taurus    ⽜
Danio rerio    斑马鱼
Drosophila    melanogaster ⿊腹果蝇
Gallus gallus    乌⾻鸡
Pan    troglodytes ⿊猩猩
在线djMicrobes    微⽣物
Apis mellifera    蜜蜂
2,粘贴fasta格式的序列(可以是多条奥!!)或使⽤Accession number(s)、gi(s)(注意仅使⽤数字,不加上标志符gi)。选择⼀个要⽐对的数据库,如果是⼈和⿏则进⾏相应的选择,否则选择Others中的nr/nt 。关于数据库的说明请看NCBI在线blast数据库的简要说明。其他选项不是必选的,
如Job Title就是这次⽐对的名字,随便起⼀个即可;Organism为物种,可以填⼊你想⽐对的物种(分类单元如green plant等)的名字(拉丁名字,输⼊⼏个字母后会出现索引的)。第⼀个直接填⼊框中,往后需要点击⼀下加号后才能继续添加,选择Exclude就是与这些物种以外的物种序列进⾏⽐对。另外对于Limit by Entrez Query这⼀部分也为选填内容,若填写可以进⾏更为有效的限制,如可以限制分⼦类型、序列长度等等。具体限制内容如下:
protease NOT hiv1[organism]这将会将Blast检索限定在proteases,但不包含 HIV 1.
1000:2000[slen]对于核酸这将会将检索的序列的碱基长度限制在1000 to 2000bp,对于蛋⽩质,则将残基个数限制在1000 to 2000 。
10000:100000[mlwt]这将检索的蛋⽩序列的分⼦重量限制在10 kD to 100 kD.
src specimen voucher[properties] 这将检索范围限制在在来源特征中注有
specimen_voucher(物种证明⼈)的序列中。
all[filter] NOT enviromnentalsample[filter] NOT metagenomes[orgn] 这将会排除宏基因组研究和来⾃未知环境的样品未知序列
知道数据库的组成部分和相应的应⽤Entrez terms 是很重要的. 例如biomol_mrna[prop] 不应该在htgs或者chromosome数据库检索,因为他们没有mRNA 记录!
3,blast参数的设置。注意显⽰的最⼤的结果数跟E值,E值是⽐较重要的。筛选的标准。
4,注意⼀下你输⼊的序列长度。注意⼀下⽐对的数据库的说明。
5,blast结果的图形显⽰。没啥好说的(注意标题157Blast Hits意思为共有157条⽐对上的序列)。
6,blast结果的描述区域。注意分值与E值。分值越⼤越靠前了,E值越⼩也是这样。在下⾯图中可以在左边的复选框中选择,然后点击download可以⼀起下载这些序列。下载格式⼀般选择FASTA(complete sequence)格式较好。
7,blast结果的详细⽐对结果。注意⽐对到的序列长度。评价⼀个blast结果的标准主要有三项,E值(Expect),⼀致性(Identities),缺失或插⼊(Gaps)。加上长度的话,就有四个标准了。如图中显⽰,⽐对到的序列长度为1299,看Identities这⼀值,才匹配到1264bp,⽽输⼊的序列长度也是为1509bp,就说明⽐对到的序列要长⼀点。
附:
E值(Expect):表⽰随机匹配的可能性,例如,E=1,表⽰在⽬前⼤⼩的数据库中,完全由机会搜到对象数的平均值为1.E值越⼤,随机匹配的可能性也越⼤。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值⼩于10-5就是⽐较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值⽐现在这个要⾼的话,那么不E设置为10-6时可能就会只得到⼀条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下⼏个情况下有局限性:
1. 当⽬标序列过⼩时,E值会偏⼤,因为⽆法得到较⾼的S值。
2. 当两序列同源性虽然⾼,但有较⼤的gap(空隙)时,S值会下降。这个时候gap scores就⾮常有⽤。
3. 有些序列的⾮功能区有较低的随机性时,可能会造成两序列较⾼的同源性。
E值总结:
E值适合于有⼀定长度,⽽且复杂度不能太低的序列。当E值⼩于10-5时,表明两序列有较⾼的同源性,⽽不是因为计算错误。当E值⼩于10-6时,表时两序列的同源性⾮常⾼,⼏乎没有必要再做确认。
⼀致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。
Score得分值越⾼说明同源性越好;Expect期望值越⼩⽐对结果越好,说明因某些原因⽽引起的误差越⼩;Identities是同源性(相似性),例中所⽰⽐对的1299个碱基中只有35个不配,其他97%相同;
Gaps是指多出或少的碱基或缺失的碱基数;缺失或插⼊(Gaps):插⼊或缺失。⽤'—'来表⽰。
Strand=plus/plus指两条序列⽅向相同,如果是plus/minus,即意味着⼀条是5'到3',⼀条是3'到5',或⼀条是正向,另⼀条是反向序列。
8.Blast 的三个程序
1,MEGABLAST 常被⽤于鉴定核酸序列
MegaBLAST是⼀种BLASTN程序,主要是⽤来在同⼀物种⾮常相似的序列(相似度⼤于等于95%)之间同源性的⽐较。鉴定某⼀段核酸序列是否存在于数据库,最好的⽅法就是选择MEGABLAST。当然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成这种事情。但MEGABLAST就是特别设计⽤于⾮常相似长序列之间的⽐对,可⽤于寻查询序列的最佳匹配的序列。总之此程序主要⽤来鉴定⼀段新的核酸序列,它并不注重⽐对各个碱基的不同和序列⽚断的同源性,⽽只注重被⽐对序列是否是数据库未收录的,是否为新的提交序列或基
因。速度快⽤于同⼀物种间的。
2,Discontiguous MEGABLAST⽤于查不同物种的相似的核酸序列,⽽不是查询相同的序列。
DiscontiguousMEGABLAST,⽤于跨物种核酸序列快速⽐对。它使⽤⾮重叠字段匹配算法(noncontiguous word match)来进⾏核酸⽐对。DiscontiguousMegaBLAST⽐blastx等翻译后⽐对要快得多,同时它在⽐较编码区时也具有相当⾼的敏感度。但是需要指出的是,核酸与核酸之间的⽐对并不是发现同源蛋⽩编码区域的最佳⽅法,直接在蛋⽩⽔平⽤Blastp⽐对更好。这是因为密码⼦的简并性。 blastn ⽐MEGABLAST 更为敏感是因为它使⽤⼀个短的默认字长11.所以 blastn  从其他物种寻同源性⽐MEGABLAST 更好。blastn 字长可以从默认值调整⾄7来增加检索的敏感性⽤相同字长检索在discontiguous MEGABLAST 的效率和敏感度要⾼于标准的blastn。
需要重点指出的是核酸序列的相似性检索并不是在其他物种中发现同源蛋⽩编码区的最好的⽅法。要完成这项任务最好要通过蛋⽩质⽔平上的相似性检索。可以采⽤direct protein-protein BLAST和translatedBLAST searches的⽅法进⾏。
3.BlastN 运⾏缓慢,但是允许将字长降低到7个碱基,增加检索的敏感性。
Filter
Filter (Low-complexity)
⑧过滤器(F ilter):过滤器可以屏蔽查询序列中低成分复杂性(L ow C ompositional C omplexity)⽚断(所谓低成分复杂性⽚段指四种碱基出现的机会不均等,往往是某⼏个碱基连续出现如此序列:CGGGGGAAAAAAAAGGGGAAAAAAARAAAAMR)。它只能过虑待⽐对的序列及其转录产物中的低成分复杂性⽚断,不能过虑数据库中存在的序列中低成分复杂性⽚断。⽤户可以在BLAST和BLAST 2.0的⾼级检索中选择相应的过滤程序以消除对检索结果的⼲扰,如不⽤过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中,因为,系统对于不同的BLAST 程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,其可以消除统计学上有重要意义但⽣物学上没意义的区域的对⽐,使输出结果只呈现在⽣物学上有意义的区域。⽽对于blastn 以外的其他程序,默认值为“SEG”,所以⽤户只须选择⽤不⽤过虑功能,⽽不必设定过虑程序。有时在与WISS-PROT和refseq数据库中进⾏⽐对时SEG程序未起作⽤,这也是正常的。. Furthermore, in some cases,sequences are masked in their entirety, indicating that the statisticalsignificance of any matches reported against the unfiltered query sequenceshould be suspect. This will also lead to search error when default setting isused.
Filter (Human repeats)
这⼀选择是忽略 Human repeats (LINE's, SINE's, plus retroviral repeasts) 主要⽤于包含这些重复序列的⼀些⼈类的序列。忽略这些序列可以显著增加长序列(>100 kb)⽐对的速度。
Filter (Mask for lookup table only)
BLAST检索包含两个阶段, finding hits basedupon a lookup table and then extending them. This option masks only forpurposes of constructing the lookup table used by BLAST so that no hits arefound based upon low-complexity sequence or repeats (if repeat filter ischecked). The BLAST extensions are performed without masking and so they can beextended through low-complexity sequence.
Mask Lower Case
Withthis option selected you can cut and paste a FASTA sequence in upper casecharacters and denote areas you would like filtered with lower case. Thisallows you to customize what is filtered from the sequence during thecomparison to the BLAST databases.
可以上述中的⼀项或多项功能来获得最好的结果。
Match/Mismatch Scores
许多核酸序列的⽐对采⽤了⼀些较简单的记分系统,对于配对的实⾏'reward'奖励分,⽽不配对的则'penalty'减分当⽐对⼀些更加发散的序列时reward/penalty 的⽐例适当增加。⽐例为 0.33 (1/-3) 适合 99%以上的保守序列⽽ 0.5 (1/-2)则适合 95% 以上的保守序列;⽽1(1/-1)则适合75%以上的保守序列。
对于blastn为了保证BLAST 返回的结果在统计学意义上更加可靠NCBI采取了限制措施即reward/penalty pairs and their associated gap existence and gapextension penalties. See News on blast 2.2.13 for more information.
[1] States DJ, Gish W, and Altschul SF(1991) METHODS: A companion to Methods in Enzymology 3:66-70.
Matrixand Gap Costs
Gap Cost
对于选择的矩阵在下拉菜单中有相应的罚分,增加GapCosts 值将会导致更加整齐,这样减少了引⼊Gap的数⽬。