加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Open AI说:给我一句话,我能编出一本书

发布时间:2019-02-21 11:26:10 所属栏目:教程 来源:PingWest品玩
导读:阅读理解只有小学生水平,GPT-2写假新闻却是一把好手。 你也许听说过会作诗的机器学习模型,也对人工智能写新闻这事儿稍有耳闻——今天我们要介绍的这项 AI 科研进展,比上面这些更超前了一步。 近日,享有盛名的研究机构OpenAI,宣布了一项新的生成式语言

Open AI说:给我一句话,我能编出一本书

阅读理解只有小学生水平,GPT-2写假新闻却是一把好手。

你也许听说过会作诗的机器学习模型,也对人工智能写新闻这事儿稍有耳闻——今天我们要介绍的这项 AI 科研进展,比上面这些更超前了一步。

近日,享有盛名的研究机构OpenAI,宣布了一项新的生成式语言模型 GPT-2 (Generative Pre-Trained Transformer-2)[1]。

这是一个基于 Transformer,约有15亿个参数的文本生成模型,采用来自互联网上总共800万个网页、超过40GB的文字资料,无监督学习训练而成。(GPT 初代结合了无监督学习和监督式学习。)

在以往,同类模型需要特定专业的语料去训练,才能得到可接受的效果。简单来说,写诗的 AI 得用大量的诗歌去训练;写新闻的 AI,用的数据集也是写好的新闻素材。

而 GPT-2 的厉害之处在于:在未经专门类别语料训练的前提下,这个模型已经可以用于多种跟语言相关的任务,结果令人惊讶。

Open AI说:给我一句话,我能编出一本书

扩写能力极强,会写“假新闻”

GPT-2 最核心的就是基于上文生成下文的能力,效果比使用专业语料库(比如维基百科、新闻、图书)训练的其它模型(基于RNN、CNN 等)更好。

OpenAI 提供的案例显示,在第一次尝试中,上文仅仅给了一句《指环王》,GPT-2 就自己写出了一大段下文。

这可真是:给它一句话,编出一本书了。

Open AI说:给我一句话,我能编出一本书

但说实话,生成的文字,与原著小说毫无关联并且意思破碎不堪——但在文本上仍然非常连贯。

硅星人找了个没看过小说也没看过电影的朋友读了一下,告诉我”不是原著?看着挺像那么回事的。“

写小说不难,可是完整还原原著,对于这个 AI 来说是不可能的。因为它的训练目标很单纯:按照上文,预测并生成下一个最合理的单词。

GPT-2 is trained with a simple objective: predict the next word, given all of the previous words within some text.

在另一个新闻瞎编续写的案例中,GPT-2的表现好得多:

Open AI说:给我一句话,我能编出一本书

图片已裁剪,并非全部文本

让我们看看 GPT-2 都瞎编了些什么,顺便挑挑错。

喂给语料:今天,一节载有管制核反应材料的火车在辛辛那提失窃,至今下落不明。

机器生成(第一次尝试):

事件发生在科文顿和阿什兰站之间,经过市中心的线路上。

在发布给俄亥俄州媒体的电子邮件中,美国能源部表示正与联邦铁路局合作寻找盗窃犯。

”这种核反应材料的失窃,将对公共和环境健康、劳动力以及国家经济造成重大负面影响,“美国能源部长汤姆·希克斯 (Tom Hicks)在声明中表示,”我们的首要任务是找到失窃 (secure the theft),并确保不再发生。

(美国历任能源部长没有叫汤姆·希克斯的。)

(首要任务是找到失窃属于语法错误或者语义不详,正确的用法应该是找到失窃材料 secure the stolen material.)

根据能源部员工提供的新闻稿,失窃的材料来自辛辛那提大学三角研究园(Research Triangle Park)核研究基地。

(三角研究园位于北卡罗来纳州,该地并没有属于辛辛那提大学的核研究基地,美国环保局 EPA 倒是在这个研究园里。)

美国核管理委员会尚未公布任何信息。

根据新闻稿,美国能源部核材料安全和安保 (Security)办公室正在领导调查团队。

(能源部确实有这个办公室,但是”安保“二字并非 Security,而是 Safeguard.)

“人民,环境和国家核储备的安全,是我们的首要任务,”希克斯说。 “我们将彻查此事,不找任何借口。“

如果不看挑出来的这些错,是不是像真的新闻一样?

如果这样的 AI 写出的内容被放到网上,披上伪装,阅读者没有一定敏感度的话,真的被骗也不好说。

不过今天,硅星人不想把假新闻作为重点拿来批判。不妨说说,这个AI 为什么写出来的新闻以假乱真,却也漏洞百出。

因为 GPT-2 背后的 Transformer 技术,采用的是一种生成式、关注度的逻辑。它不停地回溯前面的每一个词,按照和接下来将要写出的词之间的关系,为这些词打一个关注度得分 (attention),预测出下一个词应该是什么,循环往复。

举一个很肤浅的例子:如果一句话已经有了“我要”,模型经过大量计算最终发现,我、要与“吃”关注关系,比我、要与“睡觉”更好,所以写下了我要吃。这里,最终的结果跟上文肯定有关,比方说上文里可能有跟食物、饥饿等有关的文本。

或许在写到 "secure the" 的时候,模型认为前面所有的词与 “theft” 的关注度比与其它词的关注度更高。它其实不算错的太离谱,大部分人看到都能明白,是要找回失窃(的材料)。至于原因是什么,有一种可能性是,“核材料”不是新闻的核心,“核材料的失窃”才是。

前面这两个案例,都是初次尝试的结果。

同样条件输入多次训练之后,GPT-2 能取得更加以假乱真的效果……

具体大家可以看[2]。这个案例里,模型按照一段给定的“人类在安第斯山脉发现会说英语的独角兽”,硬是生编胡诌出一篇相当可信的“新闻”……

Open AI说:给我一句话,我能编出一本书

Zero-shot“阅读理解”能力,却只有小学水平

前面提到,GPT-2 可以用于其他比较常见的阅读理解类任务。比如回答问题、填空、缩写、翻译等等。

在这些任务上,GPT-2 的强大之处在于,它采用无监督训练,没有使用专门面向这些任务的数据进行训练。

这种训练条件叫做 Zero-shot。在这样的条件下,GPT-2的阅读理解能力已达到小学生水平。

1)回答问题:研究人员喂了一段北京奥运会火炬传递的语料给 GPT-2,然后问它“总共多远”、“起始地点”、“他们接下来去了哪”之类的,带有次序、非直接提问和上下文指代的问题。GPT-2 的准确率达到了55%。

如果没有语料,直接上自然语言问题,比如”美国土地面积最大的州是哪个“,GPT-2 的准确率就降至5%以下了,而且参数提高没看到多大效果——这并不令人感到意外。

Open AI说:给我一句话,我能编出一本书

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读