• 媒体东大

【中国社会科学网】语言资源共享助力跨学科研究

2024-04-1910发布者:唐瑭

分享到:

  作为人类活动的载体,语言承载着丰富而浓厚的社会文化信息,关涉人类创建的所有学科。它存在并依附于人类社会,服务于经济、政治、文化等社会生活的方方面面。广义上的语言资源是任何语言单位的集合,具有可利用性、稀缺性、可再生性、不平衡性、社会性和继承性等特性。随着数字技术的迅速发展,语言资源已成为自然语言处理向智能化发展的前提和基础。特别是生成式人工智能的发展与应用,使语言资源的重要性越发凸显——能够为大语言模型学习和理解人类语言的复杂性提供数据支撑,从而实现更准确的语言理解和生成。新文科背景下的跨学科研究,一般指某一人文学科借用其他人文学科或自然学科的理论、工具和研究方法等,来解决本学科难以或不能满意解决的科学问题的研究。在解决不同学科彼此关切的问题时,增进语言资源(或数据)共享,有助于打通多学科之间的壁垒,从而能够用更广阔的研究视角探究更多样的研究问题。

  狭义上的语言资源包括词汇资源、语法资源和语义资源,还包括基于语言信息处理的语言知识库、语料库和词典等。具体而言,词汇资源作为语言资源的基础,包括词形、词性、词形序列、词性序列、词嵌入和语言模型等。语法资源是语言资源不可或缺的重要组成部分,包括句型、句式、结构等体现出来的语法规则、语法关系、语法意义和语法范畴等。语义资源是人类对外界事物、现象、关系的基本或直接的认知结果,客观存在的相同事物大致对应相同的语义资源。在对语言资源的开发利用上,词汇资源丰富且词性标注技术趋于成熟;语法资源的解析方法较多,性能基本令人满意;语义分析起步较晚,性能不尽如人意。

  常见的语言资源形式是词典和语料库。国际上,语言资源联盟(LDC)拥有1993—2023年间的几百个资源,包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文、美国英语口语词汇、汉英平行对应词表等。具体的词典和语料库则包括美国普林斯顿大学WordNet英语词典、美国宾夕法尼亚大学VerbNet词典和PropBank语料库、美国当代英语语料库(COCA)、美国卡内基梅隆大学TalkBank口语语料库、英国国家语料库(BNC)、联合国文件数据库等。同时,国内在词典和语料库的开发与建设方面也取得了显著进步。比如,中文语言资源联盟(CLDC)拥有汉藏双语语料库、维吾尔语—汉语平行语料库、汉蒙平行语料库、汉语情感语料库、汉语普通话语音库等99个资源。此外,还有来自北京语言大学的BCC汉语语料库、北京大学中国语言学研究中心的CCL语料库、哈尔滨工业大学社会计算与信息检索研究中心构建的《大词林》,以及中文开放知识图谱平台上国内高校和研究机构共享的200多个多学科数据集和知识图谱等。

  目前,语言资源已受到世界各国的广泛关注。比如,1992年,语言资源联盟在美国宾夕法尼亚大学成立;1995年,欧洲语言资源协会(ELRA)在卢森堡成立,跨欧洲语言资源基础建设工程学会(TELRI)成立;1998年,语言资源与评测会议(LREC)在西班牙举办。在国内,语言资源也受到重视。比如,2001年,中文语言资源联盟成立;2004年,国家语言资源监测与研究平面媒体中心在北京语言大学成立,随后又分别成立了网络媒体中心、海外华语研究中心、教育教材语言中心、有声媒体语言中心;2015年,我国启动中国语言资源保护工程,广东、湖南、江西、浙江、河北等地陆续启动了方言调查保护工作;2021年,北京语言大学设立语言资源学博士专业,标志着我国语言资源研究的学科化,是交叉学科建设的一次重要实践。

  语言资源是语言学、文学、哲学、人类学、社会学、历史学、经济学等多个人文学科的重要切入点。在语言学领域,语言资源被视为人类语言的重要组成部分,语言学家探索语言的起源、演化和多样性,研究语音、词汇、语法、语义、语用等多个方面。在文学领域,文学家关注作家如何利用语言资源来表达和构建人物形象、叙事结构以及文学风格。在哲学领域,语言资源被看作人类思维和交流的基础,哲学家研究语言的真值、意义和理性等内容。在人类学领域,人类学家关注不同文化和语言社群之间的语言使用方式和语言差异。在社会学领域,社会学家研究语言在社会中的使用、功能和变化,以及语言与社会身份、权力关系和社会结构之间的相互作用。在历史学领域,语言资源是历史文献的重要来源,历史学家通过研究历史文献中的语言使用、语义变迁和语言变体等还原特定历史时期的语言状况。在经济学领域,经济学家通过语言资源深入分析市场动态与消费者行为,并解读各种经济现象。

  语言资源在助力跨学科研究时,也面临以下挑战。一是数据标准化问题。不同学科领域可能使用不同的数据格式和标准,需要制定统一的数据标准和格式,方便不同学科领域的研究者使用和共享语言资源。同时,不同学科领域存在各自特有的术语、方法和范式,因此还需要制定元数据标准和数据交换协议以提高数据的共享性和互操作性。二是数据质量问题。确保共享的语言资源质量至关重要,因为低质量的数据会对研究的可靠性产生负面影响。数据的质量控制包括:数据清洗,去除错误或不一致的信息;数据标注,保证数据的正确性和可理解性;数据校验,验证数据的准确性和完整性。三是数据多样性问题。在语言资源共享中,确保数据集涵盖多种语言、方言、文本类型和文化背景是一个重要挑战,因为不同学科领域需要不同类型的数据。解决数据多样性问题需要广泛的数据采集工作,包括文本、图像、音频、视频、田野调查、社会调查等。四是数据隐私和伦理问题。语言资源可能包含个人身份信息、敏感言辞以及其他涉及隐私的内容。研究者和数据提供者可以采取伪匿名化、数据脱敏等技术手段保护个人隐私,并制定伦理审查和道德准则,确保数据共享符合法律和伦理要求。

  语言资源共享可以促进不同学科领域之间的合作与融合。如何更好地促进语言资源的共享和创新,可以尝试在以下几个方面努力。一是创建共享平台和资源库,供研究者共享语言资源和研究成果。这些平台和资源库兼具数据存储、数据共享和协作处理功能,方便研究者跨学科合作、交流和协同研究。二是组建跨学科研究组织和团队,举办跨学科学术交流会议。通过交流和整合不同学科,如语言学、计算机科学、社会学的专业知识和方法,从多个角度共同应对语言资源的收集、标注、分析和应用等方面的挑战,提升语言资源的兼容性和可及性。三是支持鼓励出版跨学科的研究成果,出版发行跨学科期刊和出版物。这样的出版物平台能够为研究者提供展示和分享跨学科研究成果的渠道,有利于学科间的交叉与融合。

  (作者系南京邮电大学国别区域研究中心研究员;东南大学外国语学院副研究员)



原文网址:

https://www.cssn.cn/skgz/bwyc/202404/t20240419_5747020.shtml