""

澳门太阳城网站-最新注册

  • 由澳门太阳城最新网站的研究人员开发出一种新的算法,从全景摄影注意到线索大规模,多样化的数据集合并成可用于医疗和生物学研究单细胞来源。

    由澳门太阳城最新网站的研究人员开发出一种新的算法,从全景摄影注意到线索大规模,多样化的数据集合并成可用于医疗和生物学研究单细胞来源。

    研究人员礼貌形象

    全屏

合并单元格的数据集,全景式的

由澳门太阳城最新网站的研究人员开发出一种新的算法,从全景摄影注意到线索大规模,多样化的数据集合并成可用于医疗和生物学研究单细胞来源。

算法拆线多个数据集到一个单一的“全景”,这可为医学和生物学研究的新见解。


记者联系

艾比abaz要么ius
电子邮件: abbya@mit.edu
电话:617-253-2709
澳门太阳城最新网站新闻办公室

由澳门太阳城最新网站的研究人员开发出一种新的算法,从全景摄影注意到线索大规模,多样化的数据集合并成可用于医疗和生物学研究单细胞来源。

单细胞基因数据集简介人体细胞中的表达 - 比如一个神经元,肌肉和免疫细胞 - 洞悉人类的健康和治疗疾病。数据集是由一系列的实验室和技术生产的,并且含有非常多样的细胞类型。结合数据集到一个单一的这些数据汇集开辟新的研究可能的可能性,但是这难以有效和高效地完成。

传统的方法趋向于细胞聚集在一起的非生物基于模式 - 如通过实验室或使用的技术 - 意外地或合并细胞异种出现的相同。这纠正错误,这些方法不能很好地扩展到大型数据集,并要求所有合并的数据集至少细胞类型的一股普通股。

在一份文件中今天发表于 自然生物技术,澳门太阳城最新网站的研究描述了一种算法,可以高效多个合并比大大不同细胞分为不同的类型,以更大的算法,称为20点的数据集“Scan要么ama,”自动查找并缝线一起共享两个数据集之间的细胞类型“全景”。 - 等组合重叠在图像中的像素,以生成全景照片。

只要任何其它细胞类型的数据集股之一,在最终图像的任何一个数据集,它也可以合并。但所有的数据集并不需要有一个共同的细胞类型。该算法保留了所有的细胞类型具体到每一个数据集。

“传统力量细胞对齐方式,不论细胞类型是什么。他们创造一个blob由于没有结构,而你失去所有有趣的生物学上的差异,“布赖恩HIE,博士研究生在计算机科学和人工智能实验室(CSAIL)和计算和生物组的研究员说。 “你可以给Scan要么ama不应对齐数据集在一起,该算法将分开的数据集根据生物学上的差异。”

在他们的论文中,多于研究者成功地合并100,000细胞由含有宽范围的人类细胞的26个不同的数据集的容器中,在创建数据的一个单一的,多样化的来源。与传统方法,这将需要大约一天的价值计算,但Scan要么ama完成了大约30分钟的任务。研究人员说,工作是有史以来最高的合并在一起的数据集的数量。

HIE加入纸上有:邦妮伯杰,在澳门太阳城最新网站电气工程和计算机科学,计算和生物组组长教授数学的西蒙斯教授;和Bryan BRYSON,生物工程的澳门太阳城最新网站助理教授。

链接“互邻居”

有无人类数百个电池的类别和子类别,而每个细胞表达一组不同的基因。这种技术是在RNA测序蔓延,该信息采集多维空间。细胞周围的空间分散点,并且每个维度对应于不同基因的表达。

Scan要么ama运行修改计算机视觉算法,被称为“相互最近邻匹配”,这两个计算空间查找最接近(最相似)点。在CSAIL开发,使用的算法来找到INITIALLY像素,匹配特征 - 比如有色水平 - 在不同的照片。这可能有助于电脑匹配像素的目的是在一个形象代表,以像素的另一个图像凡客体的地位发生了巨大改变是相同补丁的补丁。它可用于在全景拼接也千差万别图像一起。

研究人员重新利用该算法找到重叠细胞与基因表达 - 相反的重叠像素的特征 - 在多个数据集而不是两个。基因表达在细胞中的水平决定了它的功能和,反过来,它在计算空间位置。如果堆叠在彼此的顶部上,具有相似的基因表达的细胞,即使它们来自不同的数据集的时候,将大致在相同的位置。

每个数据集,Scan要么ama首先每个单元格链接在一个数据集中到其最近的邻居在所有数据集,这意味着他们将最有可能分享相似的位置。但该算法只保留链接到何处互为近邻细胞在两个数据集中 - 相互链接。举例来说,如果小区到小区最近的邻居是b和细胞B的细胞是,这是一个门将。然而,如果小区B的最近的邻居是一个单独的小区c,则电池A和B之间的链路将被丢弃。

保持相互联系的可能性增加的细胞是,事实上,同样的细胞类型。非互斥打破了链接,而另一方面,防止细胞类型具体到每一个数据集从合并随着细胞类型不正确。所有十个相互链接发现,该算法拆线在一起的所有数据集序列。这样做,它结合了相同的细胞类型,但保持独有的任何数据集的细胞类型从合并单元格分离。 “相互联系形成的锚,使整个数据集[正确]单元格对齐方式,” Berger说。

萎缩的数据,扩大

确保Scan要么ama规模大的数据集,这两个结合的研究人员优化技术。第一个数据集,你降维。在一个数据集中的每个小区可能具有高达20000个的基因表达测量值和多达尺寸。研究人员利用,以技术的数学那高维矩阵汇总数据与少数的功能,同时保留重要信息。基本上,这导致尺寸的100倍的降低。

他们也很受欢迎散列技术用于更快地找到最近的相互邻居。传统上,计算上连还原样品将采取小时。但基本上最近的邻居的散列技术水桶创建由他们的最高概率。该算法只需要搜索概率最高的水桶发现相互链接,可以减少这使得该方法远不如计算密集的搜索空间。    

在单独的工作,联合研究Scan要么ama与另一 技术他们研制 产生全面的样本 - 或“素描” - 大规模数据集小单元的减少超过500,000个细胞,从两个小时下来到8分钟相结合的时间。要做到这一点,他们产生的“几何草图,” Scan要么ama他们跑了,并推断他们学到了什么有关合并的几何草图到更大的数据集。派生自ESTA技术本身 压缩基因组学,这是由伯杰的研究小组开发的。

“即使你需要素描,整合和重新应用信息充分的数据集,它仍然是一个数量级比合并整个数据集快,说:”缺氧缺血性脑病。


主题: 研究, 计算机科学与技术, 算法, 生物学, 数据, 卫生科学与技术, 药物开发, 医学, 机器学习, 计算机科学和人工智能实验室(CSAIL), Electrical Engineering & Computer Science (eecs), 数学, 生物工程, 工程学院, 科学学院

回到顶部