新闻是有分量的

新闻自动写作若干技术研究

2018-02-13 21:31栏目:传媒

摘要:我们期望机器可以像人一样撰写高质量的新闻,虽然目前有媒体宣称已经实现了新闻自动生成,但大多是使用既定的数据,对人工设定的新闻模板进行自动填充,这种方式拓展性较差,也无法实现智能化。真正的智能新闻写作应该可以汇总和归纳给定数据和信息,自动产生符合相关标准的新闻,自动文本生成是实现这一目标的关键技术

本文调研了常用的智能化生成文本的方法,鉴于文本数据具有序列性的特点,循环神经网络在文本生成任务上卓有成效,常用的循环神经网络模型主要是LSTM,GRU。本文首先对这两个模型进行了简要介绍,然后应用这两个模型到文本生成中,包括的方法有:1)将训练语料数据经过语言模型生成具有语义特性的分布式词表示,作为LSTM或者GRU的输入,训练得到神经网络模型,将新的数据也使用词表示的方法输入到已经得到的模型中,得到新的文本输出;2) 使用深度生成模型变分自编码,对语料数据学习到一个生成模型,使用该生成模型得到新的文本输出。最后提出这两种方法在实际应用中的困难。

关键词:新闻自动写作,文本自动生成,LSTM GRU,语言模型,变分自动编码

一、 研究背景

1.1发展历程

所谓“机器写作”,又称“机器人写作”,是指运用算法对输入或搜集的数据自动进行加工处理,从而自动生成完整新闻报道的一整套计算机程序[1],核心在于自然语言生成。“机器新闻写作”则指用这种技术进行新闻写作,是人工智能学科在新闻领域的应用。

机器写作要追溯到 20 世纪 50 年代,源自机器内容翻译的研究。 20 世纪 60 年代,为了验证指定的语法理论的正确性和转换生成语法的有效性,学者开始研究使用机器生成与上下文无关语法的句子;20 世纪 70 年代,计算机技术应用领域的拓展催发了其他领域机器写作的研究,如在游戏中利用机器写作生成游戏说明文本,同时学者开始尝试机器生成孤立句和复述自然语言;20 世纪 80 年代,机器写作技术得到了突飞猛进的发展,并逐步开始应用于段落、篇章的生成,文本规划的概念首次提出;20 世纪 90 年代,文本规划器和语言实现器的提出与实现促使机器写作开始应用到更多的领域中,如在军事上生成军事报告,气象局生成天气预报等等;21世纪初,机器写作技术基本成熟,各个领域也开始加快研究步伐,在医疗、新闻、 教育等领域开始实现机器写作系统,机器新闻写作甚至于投入市场,对新闻行业产生了极大的冲击与挑战[2]。如今,人工智能在各个领域大放异彩,新闻界也不可避免的接受人工智能的重塑,其中以机器人写作最具代表性。随着深度学习的发展,机器写作的新闻也开始变得更加多元化,更符合用户的需求。

1.2国内外的发展现状

从2010年起,叙述科学公司开发了一个名为Quill的系统撰写了“十大联盟”数千项大大小小体育赛事的新闻,它几乎是在比赛中进行实时报道,稿件不管是在数量还是时效上都远超以往。为了更好地把数据通过算法转化成文字,叙述科学公司雇佣了一批记者来“训练”计算机,使其能够从数据中发现各种各样的“角度”,并教会计算机如何组织文章的“架构”。此外,叙述科学公司的团队还为客户提供了报道语气风格的多样化选择。经过几年的发展,叙述科学公司的技术有了更强大的提升。2014年3月,该公司发布了Quill Engage平台,也就是谷歌分析(Google Analytics)应用。

国内媒体采用机器撰写新闻稿件起步较晚,但后续发展势头强劲。2015年11月,新华社宣布“快笔小新”投入使用,这台机器可以快速完成体育财经类的新闻自动写作。但这并不是国内第一个写作机器人。早在9月,腾讯财经发表的一篇题为《8月CPI同比上涨2.0%创12个月新高》的消息就由自动新闻写作软件Dreamwriter完成,在一分钟内将重要信息进行解读并送达客户。在2016年的里约奥运上,一个名叫Xiaomingbot(张小明)的机器人开始崭露头角。“张小明”的核心写稿模块由北京大学计算机研究所万小军团队和今日头条媒体实验室联合研发。这是国内第一款可以报道奥运赛事的机器人,在结合了最新的语言处理机器学习和视觉图像处理的技术之后,通过语法合成与排序完成新闻写作。在奥运会开始后的13天内,机器人“张小明”通过对接奥组委的数据库及时更新信息,配选图片,在短时间内完成消息写作和赛事汇总等工作,共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道,每一篇稿件生成的时间大约是两秒,每天可以撰写30篇以上,其发稿速度几乎与电视直播同时。

1.3机器新闻写作的意义