1. 在NCBI进行BLAST序列比对时,需要输入查询序列的信息,以下错误的格式是(  C  )
A. 序列的accession number
B. 序列的gi
C. 序列对应基因的ID
D. FASTA 格式的序列
2. 下面这段序列是: (  B  )
>gi||ref|| Drosophila melanogaster RNA-binding protein 4 CG9654-RA, transcript variant A (Rbp4), mRNAGGATTTTCTTGCCTGTCATTCAATTTGTGGTTGGCTTCACCTGAGTGCTGTAGT。。。
A.  DNA序列        B. RNA序列   
C.  蛋白质序列        D. 基因
3. ExPASy上的工具软件ProtParam提供的是哪一种类型的服务?(  B  )
A. 蛋白质三级结构分析
B.蛋白质序列理化性质预测
C.蛋白质二级结构分析
D.跨膜结构分析
4. 假设你有两条远相关的蛋白,为了比较它们,最好利用下列哪个记分矩阵(A      )
A.  BLOSUM45或PAM250    B. BLOSUM45或PAM1   
C.  BLOSUM80或PAM250      D. BLOSUM10或PAM1
5. 构建系统发生树,应利用 C
寂寞的光棍A. BLAST            B.  FASTA
C.  UPGMA            D. Entrez
6. 下面这段蛋白质序列是什么格式? (    D )想你 主题曲
>gi|4506183|ref|| proteasome alpha 3 [Homo sapiens]MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGS。。。。。。
A.  GBFF  B. TEXT   
C.  PDB        D. FASTA
7. 直系同源物概念为( A        )
毕楠萧宝A.不同物种中具有一路先人的同源序列
B.具有较小的氨基酸一致性可是有较大的结构相似性的同源序列
C.同一物种中由基因复制产生的同源序列
D.同一物种中具有相似的而且一般是冗余功能的同源序列
8. 美国NIH保护提供的DNA序列数据库是:(  A  )
A.  GenBank        B. Protein   
C.  dbEST        D. dbSNP
9. 高分派对片段的英文缩写为( A  )
A. HSP    B. HMP
C. HCP    D. HDP
10. BLAST比对结果报告中有一统计数值E值,该值大小与匹配度的关系是(  B )
A. 值越小说明匹配度越低
B. 值越小说明匹配度越高
C. 二者无内在关系
D. 以上说法都不对
11. NCBI提供了大量的序列分析工具,其顶用来寻觅DNA序列潜在的蛋白质编码区的工具是:( A      )
A.  ORF Finder        B. BLAST   
C.  Scan Prosite        D. SAGEmap
12. Entrez是哪个网站数据库的检索系统 (A  )
A.NCBI
B.PROSITE我是歌手杨宗纬唱的歌
C.EBI
D.PDB
13. 若是想一个和查询蛋白远源的蛋白质,下面哪一种方式最可能成功?  B
A.采用PHI-BLAST,因为你能自己选择一个和搜索蛋白质有关的信号序列
B.采用PSI-BLAST,因为那个算法利用位点特异性打分矩阵最为敏感
C.采用BLASTP,因为你能够调整你的打分矩阵从而使得搜索敏感度最大
D.采用专门的物种数据库,因为他们中可能含有这种远源序列。
下列哪个不是Entrez的逻辑运算符(D )      A AND    B OR  C BUT D NO
下面对进化树理解错误的是(D)     
A 从根节点到任何一个节点的唯一路径和方向代表了进化方向
B 根是树中所有物种的一路先人
C 根节点上的物种咱们以为比树中其他所有的物种分化更早
D 从根节点到任何一个节点的路径与物种的进化程度相关
检测核酸序列是不是受到了载体污染的最主要方式是 (  A  )
A 在载体数据中做相似性搜索   
B 搜索序列中的限制性酶切位点
C 检索细胞数据库               
D 检索宿主序列数据库
利用ExPASy网站的AACompIdent工具软件进行蛋白质鉴定的时候不能输入的数据是 (B)    A 要鉴定的蛋白质氨基酸组成比例   
    B 对应的核酸组成比例
    C 限定搜索的物种范围             
    D 蛋白质序列的pI潘阳身高
关于蛋白质序列数据库 以下说法错误的是  (C)   
A  UniProtKB/TrEMBL是Swiss-Prot数据库的一个由运算机自动注释的增补版
B. PIR PSD是非冗余的蛋白质序列数据库
C. PDB数据库一样包括了蛋白质序列的详细信息
D. NCBI一样提供了蛋白质序列子数据
ExPASy上的工具软件TMpred提供的是哪一种类型的服务  (D)     
A 蛋白质三级结构分析     
B 蛋白质序列理化性质预测
C 蛋白质二级结构分析     
D 蛋白质跨膜结构分
蛋白质序列的描述行 >gi||gb|| NPC-associated peptide [Homo sapiens]中的是什么意思  (A)     
A AAO41714是NCBI中序列的ACCESSION 小数点后的1是版本号
B 序列在Swiss-Prot中的ACCESSION
C 序列的motif数据库中的ACCESSION
D 序列对应的基因ID号
14. 解释生物信息名词BLAST、CDS(GBFF格式中的特性关键词)、NCBI、UPGMA、EBI。
  BLAST:Basic Local Alignment Search Tool大体局部相似性对比搜索工具;
  CDS:Coding sequence蛋白编码区信息;
  NCBI:National Center of Biotechnology Information 美国国立生物技术信息中心;
  UPGMA:unweighted pair group method with arithmetic mean 非加权算术平均组对法;
  EBI:European Bioinformatics Institute欧洲生物信息学中心。
15. NCBI的BLAST工具有5个大体程序,别离为nucleotide blast,protein blast,blastx,tblastn,tblastx,请别离说明每一个程序解决的问题。
tblastn,tblastx,请别离说明每一个程序解决的问题。
Blastn:用核酸序列搜索核算数据库;
Blastp:用蛋白质序列搜索蛋白质数据库;
Blastx:用核酸序列搜索蛋白质数据可库(先将核酸序列按6个可读框翻译成蛋白质序列);
Tblastn:用蛋白质序列搜索核算数据库(先将核酸数据库的序列按6个可读框翻译成蛋白质序列);
Tblastx:将查询序列和数据库里的核酸序列都按6个可读框翻译成蛋白质序列再对比,每两条序列进行36次对比。
16. 若是咱们想明白一个基因组DNA数据库中是不是有某个蛋白的直系同源物,该采用什么样的序列分析工具。
采用tblastn序列分析工具。
17. 通过BLAST比对,发觉两个序列相似度是90%,能不能认定两个序列同源性是90%,为何。
不能,因为同源性是序列同源或不同源的一种论断,而相似性或一致性是一个序列相关性的量化,是两个不同的概念。
18.  在NCBI中检索的时候,在检索框中输入“AAO41714[ACCN]”能返回一个如何的结果?
返回唯一一条序列号为AA41714的相关信息。
19. 对核酸序列进行BLAST的时候,选择的字(WORD)越长精度越高仍是越短精度越高,为何?搜索速度跟字长有什么关系?
  字越长精度越高。因为blast程序在进行序列数据库相似性搜索时,查询序列可选择过滤掉低复杂度的区域,然后按字长参数(DNA序列一般为11,蛋白质一般为3)将序列分解成小的字串。然后程序再出查询序列和目标序列间所有单个或多个持续匹配的字串。字串越长,所要求匹配的序列越长,所要求序列的匹配度越高,所以越精准。
  增加字长能够提高搜索的特异性和速度。
20. 这是某蛋白质的一个pattern:GXW[YF][EA][IVLM],请说明其含义 。
班得瑞全集  Gly-any-Trp-[Tyr or Phe]-[Glu or Ala]-[Ile or Val or Leu or Met]
举例 :( 1:  PA [AC]-x-V-x(4)-{ED}: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp} 
2 : PA <A-x-[ST](2)-x(0,1)-V. Ala-any-[Ser or Thr]-[Ser or Thr]-(any or none)-Val )
21. 简单介绍NCBI Reference Sequences数据库(其他上课讲过的如PROSITE数据库等 )。
The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant, well-annotated set of sequences, including genomic DNA, transcripts, and proteins. RefSeq is a foundation for medical, functional, and diversity studies; they provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis (especially RefSeqGene records), expression studies, and comparative analyses.