主管单位:吉林省新闻出版局
主办单位:吉林省舆林报刊发展中心
编辑出版:《警戒线》杂志社
国内刊号:CN 22-1415/D
国际刊号:ISSN 2095-9893
出版地:吉林省长春市
发行范围:国内外公开发行
投稿邮箱 :jjxbjb@126.com
计算语言学是用计算机研究和处理自然语言的一门新兴交叉学科。在近年推进新文科建设的背景下,计算语言学及其相关应用日益引起关注。计算语言学领域相关学者在接受本报记者采访时表示,计算语言学方兴未艾,应用广泛,前景广阔。
横跨文理工三大学科领域
计算语言学是横跨语言学、数学和计算机科学的交叉学科。它同时涉及文科、理科和工科三大领域,具有跨学科的性质。学者在从事计算语言学研究时不仅要具备语言学知识,还要具备数学和计算机科学方面的知识。教育部语言文字应用研究所研究员冯志伟告诉记者,面对信息网络时代的新要求,不少语言学家都在努力学习计算机自然语言处理技术,不断更新知识再学习,成为兼通语言学、数学和计算机科学的新一代语言学家。
北京大学是计算语言学研究的重镇。谈到当前计算语言学前沿时,北京大学计算语言学研究所所长王厚峰向记者表示,近20多年来,统计与机器学习方法在自然语言处理中占据主导地位。无论是统计方法,还是机器学习方法,其基础都是数据。因此也可以说,20多年来,自然语言处理主要是由数据驱动的。近几年深度学习的发展进一步强化了数据的作用,特别是对无标注语言数据的使用。在深度学习的大框架下,出现了一些有代表性的技术,如预训练语言模型的出现。
计算语言学已经开始广泛应用。冯志伟以机器翻译为例介绍说,当前国际上计算语言学研究在机器翻译方面取得了很大成就,机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段,目前正在实用化和商品化,机器翻译已经从学者的梦想变成了现实。
发挥优势促进学科融合
随着近年来人工智能、数字人文、大数据等领域的快速发展,以及新文科建设的需要,各地学术机构结合各自学科优势,推进研究工作,纷纷构建了计算语言学和自然语言处理相关领域的学术新机构新平台。如2019年6月成立的北京语言大学语言智能研究院,2019年7月清华大学人工智能研究院创建的自然语言处理与社会人文计算研究中心。
王厚峰介绍了当前他们的新研究。其一是跟踪与改进,如在预训练模型方面,尽量融入多模态的信息,包括结构化知识。其二是模型效率的改进。在当前的深度学习框架下,训练复杂度非常高,如何降低复杂度是需要研究的问题。其三是加强以中文为核心的语言知识挖掘研究。
在北京语言大学教授宋柔看来,目前语言学和语言工程还存在脱节的现象,要促进语言学和语言工程的深度融合,加强携手协作建立语言知识体系。
清华大学中文系教授刘石和清华大学计算机科学与技术系教授孙茂松展开学术合作,提出了构建“中国古典知识库”的设想。刘石目前正在承担的国家社科基金重大项目“基于大数据技术的中国古代文学经典文本分析与研究”,在古典诗歌分词及知识图谱工作中,运用计算语言学和自然语言处理技术,自动实现针对古典诗歌文本的词汇抽取、分词和关联分析,并上线“古典诗歌知识图谱”。
经验主义方法与理性主义方法结合
如何进一步推进研究,王厚峰表示,我国学界在相关方面基本属于跟踪研究,还需要有创新型研究。其中尤其缺乏针对中文的计算研究,中文有很多自身的特点,今后需要结合中文特点开展相关研究。
冯志伟认为,目前,在计算语言学研究中,深度学习方法成为了主流方法,几乎被应用于计算语言学研究的所有领域。这是一种基于语言大数据的经验主义方法,语言规则受到忽视。深度学习应当与语言学研究结合起来,基于语言大数据的经验主义方法应当与基于语言规则的理性主义方法结合起来,相互促进,相得益彰,这样才能推动计算语言学的进一步发展。
中国社会科学报记者 曾江