转载

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

一般人很难读出「meme」这个词，它通常译为「模因」，起源于 1976 年，本意为「模仿传递行为」。

但读音和来源或许没那么重要，重要的是每个网上冲浪的人都见过它，甚至沉迷于它。在中文里，它大概被称为「网络梗图」、「沙雕图片」、「表情包」等等……

比如这个：

还有这个：

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

这个金发蓝衣的快乐男孩，你难道不眼熟吗？

作为机器学习研究者，你可能还偷偷在收藏夹里保存了这些：

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

这是一张在深度学习社区流传很广的图，表达的是新的预训练方法如何比之前的 SOTA 方法更优越。当然，新 SOTA 方法是层出不穷的，这样的图片收集起来甚至能形成一个完整的系列。

图的创建通常只有两步：选一张时兴的 meme 模版（即图像），然后配上「精妙绝伦」的说明文字，制造出一种别有韵味的幽默感。

这种图像、文字和幽默感的奇妙组合，在信息传递方面极具穿透力和感染力，比如当你看到这张图时：

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

虽然这只是一张静态图片，句子也不成句子，但你的眼前已经浮现出了七人共舞的场景。

当代网友人人都用表情包，甚至还会自制。比如：

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

然而，表情包除了自制，还可以由 AI 生成。你可能想不到，某个平平无奇的表情包背后竟然隐藏着「神秘力量」。

今天，我们就来了解一下 meme 自动生成。

meme 自动生成一直是深度学习领域的课题之一。以往的生成方法要么是从一堆 meme 字幕中选择最适合的一个，要么是基于给定图片和模版来生成 meme 字幕，似乎有点不够「便捷」。

近日，来自美国亚利桑那州立大学的研究者对 meme 图生成方法进行了改进提升。在这篇论文中，研究者提出了一种根据给定的输入语句来生成匹配图片的方法。这是一项很有挑战性但有趣的 NLP 任务。

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

论文地址：https://arxiv.org/abs/2004.14571v1

通过对 meme 图生成机制的深入了解，研究者决定将 meme 图生成与自然语言翻译结合起来。

在自然语言翻译工作中，为了将输入的语句转换为目标语言，必须对语句的完整含义进行解码，分析其含义，然后将源语句的含义编码为目标语句。

类似地，此处也可以将源语句的含义编码为图像和字幕对，使之传达与源语句相同的含义或情感，从而将语句翻译成「梗」。

受该方法的启发，研究者提出了一种端到端的编码-解码模型「memeBot」，可面向任意给定的语句生成 meme 图。同时在训练的过程中，研究者创建了首个大型 meme 图字幕数据集。

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

给出句子「I am curiously waiting for my father to cook supper tonight」，memeBot 使用 meme 模板选择合适的图，然后用字幕生成器生成恰当的字幕，从而生成 meme 表情包。

如何用 memeBot 制作表情包？

「memeBot」是一种端到端的神经与概率架构。该模型共有两个组成部分，如下图所示，首先是使用 meme 模版选择模块，根据输入语句确定用哪张图；然后是 meme 字幕生成器，生成合适的字幕。

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

meme 模版选择模块

基于 BERT、XLNet、Roberta 等 trans-former 架构的预训练语言表征被广泛用于自然语言理解任务。这些模型在针对相应任务微调之后，均达到了新的 SOTA 水平。

该研究在 meme 模版选择任务上，使用线性神经网络对预训练语言表征模型进行了微调。在训练过程中，通过使用公

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手

将依据给定语句选择正确模版的概率最大化。其中θ_1 表示 meme 模版选择参数，T 表示模版，S 是输入句。

meme 字幕生成

研究者借鉴了降噪编码器的方法，通过破坏输入字幕来训练 meme 字幕生成器，并使用词性标注器（POS Tagger）来提取输入字幕的词性。研究者使用 POS 向量来对输入字幕进行遮罩，仅把名词短语和动词短语作为输入传递给 meme 字幕生成器。

破坏数据的目的是让模型从现有的字幕中学习 meme 生成，并在推断过程中将基于给定输入语句生成 meme 的过程进行泛化。

meme 字幕生成器模型使用了 transformer 架构，通过对选定的 meme 模版和输入语句执行多头缩放点积注意力，来创建给定输入语句的 meme 嵌入。

transformer 解码器首先对预期的字幕执行 masked multi-head attention，然后在编码的 meme 嵌入和 masked multi-head attention 的输出之间执行多头缩放点积注意力（如图 3 所示）。这使得 meme 字幕生成器能够学习输入语句、所选 meme 模版和预期 meme 字幕之间的依赖关系。

此外，该研究还使用公式

想不到，那些让我半夜偷偷收藏的沙雕表情包，竟是出自AI之手