动物所构建深度学习模型_新闻中心_北京中科纯金科技有限公司官网，中科纯金

在数字化时代，自然历史藏品已成为生态和进化研究中不可或缺的重要资源。基于形态特征的标本检索使我们能够迅速获取与之相似的标本，可提高对这些馆藏资源的利用效率，满足相关研究的需求。然而，要实现这一目标，需要高效的特征提取和表征技术。

近日，中国科学院动物研究所白明研究团队在形态特征的智能提取与表征领域取得了显著进展，为自然历史标本的高效检索带来了全新的可能性。这一研究结合深度学习技术和哈希方法，开发了一种名为表型编码网络（Phenotype Encoding Network，PENet）的深度学习模型，为下一代分类学的发展提供了有力的支持（图a）。这一成果使研究人员能够更容易地访问和分析自然历史标本的信息，有助于深化对生物多样性和进化过程的理解。

PENet是端到端的模型，能够自动地从输入图像中提取高维特征并将其转换为哈希码。该模型实现了两个关键功能，即特征提取和特征表征。在特征提取方面，PENet采用了高性能的Swin Transformer架构（图b）。这一前沿技术能够自动捕捉标本图像中多样的形态特征，为进一步的分析和检索奠定了基础。同时，PENet发挥了哈希方法在特征表征方面的作用（图c）。在计算机科学中，哈希方法常被用于处理复杂的高维数据和向量，能够将这些数据降维至由0和1组成的哈希码，并同时保留关键信息。在PENet中，哈希方法被用来将Swin Transformer提取到的高维特征转化为紧凑而高效的哈希码，从而实现对形态特征的有效表征。

科研人员在多个数据集上对PENet进行测试，以验证其在面对不同规模标本时的检索能力。测试结果表明，哈希码作为一种二进制序列，能够高效地匹配和查询那些具有相似形态特征的图像。同时，为了更深入地理解PENet的工作原理，研究人员采用梯度加权类激活映射方法（Gradient-weighted Class Activation Mapping，Grad-CAM），对PENet模型中间层的信息进行了可视化解释和分析。分析结果进一步表明了哈希码作为形态特征的低维表征的有效性。此外，鉴于哈希码不仅能够表征所提取的判别特征，而且在一定程度上携带了不同类别之间的距离信息，该研究探索了哈希码在生成表型距离树方面的潜力，为下一代分类学的发展提供了有前景的工具和方法。

10月16日，相关研究成果以PENet: A phenotype encoding network for automatic extraction and representation of morphological discriminative features为题，在线发表在Methods in Ecology and Evolution上。研究工作得到国家重点研发计划、国家自然科学基金、国家科技基础资源调查项目、东北亚生物多样性研究中心项目、中国博士后科学基金等的支持。沧州师范学院的科研人员参与研究。

消息来源：中国科学院官网