重庆研究院在半监督分类学习技术研究中取得系列进展----中国科学院重庆绿色智能技术研究院

　　近日，重庆研究院大数据挖掘及应用中心团队在对半监督分类学习及其应用开展的研究中，取得系列进展。相关研究成果发表在IEEE Transactions on Industrial Informatic、Neurocomputing和Ecological Indicators等期刊上，研究获得国家科技重大专项“水体污染防治与治理”项目支持。

　　监督学习，是两种基本的机器学习方式之一，其基本原理是通过分析大量已标记的数据信息，根据某些假设挖掘出数据信息的内部规律，建立相应学习系统，从而对未见样本信息进行估计与预测。然而，在现实生产生活中想要获取足够多的标记数据非常困难，因为这需要耗费大量的人力物力来实现对海量数据的预先标记。在大数据时代，更多情况则是海量未标记数据与少量标记数据同时存在，如何通过仅有的少量标记数据和海量的未标记数据来学习实现优秀分类系统显得尤为重要。半监督分类学习，研究如何利用大量未标记数据辅助少量标记数据进行学习以改进分类学习系统性能，近年来成为机器学习领域研究热点，并被广泛应用于工业、农业和交通等领域。

　　首先，研究团队针对现有传统自标记半监督分类模型的局部最优解、仅适用球状数据问题，提出了一种基于数据密度峰值的自标记半监督分类模型。该模型通过无监督的计算数据密度峰值，发现数据内部聚类知识空间结构特征，进一步将此聚类知识空间结构特征引入自标记半监督分类学习训练过程，可实现高质量的半监督分类计算。其次，研究团队针对传统自标记半监督分类模型在自训练迭代过程中的错误标记问题，提出了一种适应于所有自标记半监督分类模型的优化框架。该优化框架通过将差分进化算法引入自标记半监督分类模型的自训练迭代过程，实现对所有标记数据点的监督优化，可最大程度避免错误标记问题在自训练迭代过程中的出现，从而提升分类学习系统性能。最后，研究团队针对水体富营养化这一全球性水环境问题，提出了一种基于自标记半监督分类算法的水体富营养化评价模型。该评价模型通过将上述半监督分类学习应用于水体富营养化评价，解决了传统富营养化评价方法与模型面临的所需指标获取代价太高和实时监测大数据处理能力不足的问题，其研究成果将有助于在大数据时代下对水库富营养化问题实现科学认知与评价。

　　论文链接：

　　1.http://xueshu.baidu.com/s?wd=paperuri%3A%288fb1df96757052a55dc632088b78d9d6%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fieeexplore.ieee.org%2Fdocument%2F8006248%2F&ie=utf-8&sc_us=4155057194218027628

　　2.http://www.sciencedirect.com/science/article/pii/S0925231217309608?via%3Dihub

　　3.http://www.sciencedirect.com/science/article/pii/S1470160X17303461?_rdoc=1&_fmt=high&_origin=gateway&_docanchor=&md5=b8429449ccfc9c30159a5f9aeaa92ffb

基于数据密度峰值的自标记半监督分类模型流程图

自标记半监督分类模型优化框架示意图