【东大新闻网3月22日电】(通讯员 张铄)近日,东南大学仪器科学与工程学院刘澄玉教授、李建清教授团队在人工智能领域国际顶级IEEE模式分析和机器智能期刊TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)发表了题为“学生损失函数:一种在不确定监督中面向概率假设的方法”(Student Loss: Towards the Probability Assumption in Inaccurate Supervision)的研究论文。该论文针对错误标签(noisy label)数据对模型精度的潜在影响这一普遍问题,提出了一种对特征层数据分布进行先验假设的损失函数构建方法,提升了对含有错误标签的数据集进行训练的学习效果。
近年来有监督的数据驱动算法大大推动了人工智能领域的发展。在该类学习任务中,局部错误标签的出现是普遍现象。特别是大型数据集,含有错标数据/不确定性标注数据是在所难免的。这些被错误标注的样本对模型训练有很大的误导作用,如何在AI模型训练中有效处理这些错标数据成为一个至关重要的问题。
为此,论文提出了一种新的观点,即可以将数据通过模型提取到的深层特征的类概率分布假设为特定的长尾T分布来有效抑制错标数据影响,并从理论推导和实验验证两个方面给出了详实论证。论文证实了一种新的损失函数(Student Loss)机制,可以在训练中对干净样本与错标样本进行自主筛选,从而提升模型表现。同时,结合度量学习策略,论文进一步发展了Student Loss的泛化版本(Large-Margin Version)。
该论文第一作者为东南大学仪器科学与工程学院张铄博士,通讯作者为刘澄玉,论文合作单位包括东南大学计算机科学与工程学院、英国牛津大学,东南大学为该论文的唯一通讯单位。该研究得到了国家自然科学基金,国家重点研发计划,江苏省自然科学基金等资助。
论文链接:https://ieeexplore.ieee.org/document/10412669
供稿:仪器科学与工程学院
(责任编辑:嵇宏 审核:宋健刚)