朱朝东研究组Systematic Biology在线发表面向DNA数据库物种界定规程 - 中国科学院动物研究所动物进化与系统学院重点实验室

English | 网站地图 | 联系我们 | 中国科学院 | 动物所

本站查询

首页

新闻动态

		通知公告

		实验室新闻

		科研动态

		学术活动预告

		图片新闻

	通知公告

	中国科学院动物研究所2014年优秀大学生夏令营活动招募通知

	中国动物学会第十七届全国会员代表大会暨学术讨论会第二轮通知

	动物研究所2014年优秀大学生冬令营活动开始招募啦

	动物进化与系统学院重点实验室召开“青年学者发展战略研讨会”

	动物研究所动物进化与系统学院重点实验室“百人计划”岗位招聘启事

	国家动物博物馆科普讲堂（第48期）预告：从亚马逊到南北极

	关于举办“第三届全国自然科学类场馆科普培训班” 第二轮通知

现在位置：首页 > 新闻动态 > 科研动态

朱朝东研究组Systematic Biology在线发表面向DNA数据库物种界定规程

2014年06月16日

　　公共DNA数据库中包含很多生物类群，为系统学提供了大量数据来源。目前，基于分子数据的物种鉴别和界定工作已经逐步开展。现代测序技术的飞速发展，带来了海量分子数据的同时，也导致很多研究人员无法为相关数据提供准确的分类学信息。这些分类信息不够完整的分子数据，阻碍了在物种一级水平上开展精细的数据挖掘。同时，基于较大数据库进行物种聚类研究，也需要整合多个基因片段，从而在数据结构和计算过程中产生了很多问题。

　　Douglas Chesters博士在朱朝东研究组开展博士后研究，出站后被聘任为动物研究所助理研究员期间，研发了一种在分子序列数据库中界定物种的方法：1）首先获取所有昆虫的DNA序列，并对它们进行文本加工；2）根据一定的规则过滤掉重复数据；3）划分遗传位点L；4）根据每个位点信息，界定物种S；5）物种单元与位点相匹配，形成一组多位点物种界定的数据矩阵L×S。

　　作者应用马尔科夫聚类的方法将数据库划分为同源基因片段数据集。基于包含大部分物种多样性的基因，完成物种鉴定，并同时对物种单元名字赋予物种名。在物种聚类过程中，两两相似之处计算的复杂性的主要来源于线粒体基因组中的COI位点。科研人员通过开发软件解决了这个复杂的过程：在分类的体系内执行序列两两比对，且为不同阶元的序列标注分类信息。

　　GenBank中GenBank中超过24个不同同源基因，194 000个未带分类标签的序列，包含41 525个带分类标签的物种（98.7%从昆虫数据库中获得）。通过对每个位点的分层聚类，利用独立的最优参数，这些序列被分组到59 173个基于单个位点的分子分类单元（MOTU）中。来自不同位点的MOTU，由多部匹配算法进行匹配。这样，位点之间形成不一致性最低的多位点单元。匹配后，科研人员通过这24个位点，发现了在目前的昆虫数据库中，存在78 091个基于多位点信息的MOTU。其中，38 574个单元包含物种分类学信息，而34 891个则没有包含分类标签，剩下的4 626个单元两种情况并存。

　　除了可以估算物种多样性，科研人员开发的规程还将促进现代序列数据集的物种界定。特别是L×S矩阵代表了后分类学思路，将可以解构种级元基因组数据。这些方法将可以在多个基因位点，甚至基因组水平提取大量数据，产生更多研究物种多样性的L×S数据矩阵，从而整合到后续的系统发育的流程。

　　该工作主要得到中国科学院知识创新工程、中国国家自然科学基金委面上和人才项目支持，并部分得到中国农业部公益性行业（农业）科研专项和中国国家科技部基础性工作专项的支持。

　　论文在线发表，引用信息如下：

　　A Protocol for Species Delineation of Public DNA Databases, Applied to the Insecta.

　　Douglas Chesters; Chao-Dong Zhu

　　Systematic Biology 2014;

　　doi: 10.1093/sysbio/syu038

　　论文全文下载信息如下：相关数据，论文在线发表（Abstract，PDF）