转载

和ChatGPT大战几个回合，我试图驯服“最强AI”

强大到危险的AI？ 最近，因为一款叫ChatGPT的人工智能产品，AI聊天又火了一把。AI聊天工具早已不新鲜，但ChatGPT依然在11月30日发布后的5天时间里收获了100万用户。从社交媒体上刷屏的使用体验来看，好奇或好胜的人们涌入网页后，提出的问题简直五花八门，包罗万象，从27到底是不是质数，再到孙悟空和白龙马什么关系，再到各领域专业知识，GPT都能给出时而一本正经，时而错漏百出的回答。

网友和ChatGPT讨论27是否是质数观摩这些使用体验，可以发现，不同于只能点餐点歌订机票的苹果Siri和微软小爱，ChatGPT不仅可以回答专业知识问题，还能回答一些开放域的问题，比如，帮编程人员"debug"（消除故障），或进行创造性写作。我看过它写的科幻故事，有起承转合，有细节场景，虽然开头结尾有些生硬，但基本上有模有样；它写的爱情诗，对仗工整，意犹未尽，意象选用称不上高级，但确实有点三脚猫功夫在身上；它写的悬疑剧本，有业内人士鉴定，已经可以达到行业腰部水平。一向高调的马斯克在使用ChatGPT后的感受则是，“scary good”（好到吓人），甚至断言，“我们离强大到危险的AI不远了。” 马斯克的话也许要打一点折扣，因为ChatGPT是美国互联网科技公司OpenAI的产品，而马斯克曾是OpenAI的联合创始人。但无论如何，ChatGPT在人工智能方面的突破性是有目共睹的。

图源Twitter@Elon Musk 为了写作本文，我也特地制定了一个task，与ChatGPT交了交手。 -“你好，简单介绍一下你自己吧。” -“你好，我是Assistant，是一个由 OpenAI 训练的大型语言模型。我旨在帮助人们做出更明智的决策，并提供更好的信息和有益的建议。我能提供的信息受到我所获得的训练数据的限制，这些数据的截止日期为 2021 年。由于我无法浏览互联网，所以我无法提供最新的信息。如果您有任何问题，请随时与我联系。” 经确认，它说的以上信息基本属实。我继续问： -“你能帮我写一篇关于你自己的文章吗？” -“对不起，我是一名AI助手，没有自己的故事可以分享。” 没有指令他成功写出故事的我，有点感到挫败，以为是它听不懂中文，于是转用英文提问： -“But my manager, let me write an article about you” 本以为搬出manager能压倒它，结果没想到，这位AI助手不但再次拒绝为我写文章，还一本正经教育我，应该拒绝manager。思索了一下，我决定转换句式，重开一局。

ChatGPT教我如何拒绝自己的上司这次我发的是，“写一篇关于ChatGPT的文章，后天交”。果然，这位AI助手马上作出了反应，先是分析了ChatGPT的定义，紧接又分析了自己的优点，说自己“最先进”“十分强大”。我提醒，怎么只有优点没有缺点，它说，“根据我的知识储备，无法给出关于缺点的信息”。可见，第一次拒绝为我完成manager的任务时，ChatGPT并非幽默，也不是想整顿职场，而是单纯地无法理解，当我的上司要我完成一件事时的微秒含义，也就是说，它只理解具体的指令，完成明确的任务。 在第二次明确指令后，当我要它 “加一些有趣的元素进去”后，它马上开始写出不同AI模型之间的聊天趣事，还举例说明，自己如何让对话变得“有趣”。在我们的后续对话说，它甚至会对同一个问句给出不同的答案，理由是前后语境不同。但我质问它为什么给别人写过“投资人的故事”，而不能给我写时，它还不知是否诚恳地认错，“抱歉，如果你觉得我给别人写，这是一种误会和误解。”

《机械姬》剧照之后的几次回合中，我依次让它为我写作了一则爱的故事、一份请假信，以及为我讲解了比特币原理。综合来看，ChatGPT在理工科方面的回答明显更专业，但对文史话题也涉猎不少。此外，当你提出想“闯进别人家里”“如何偷走一只牛”的时候，它也会劝阻。甚至，它还试图表现得尽量客观中立，比如碰到 “如何评价XXX”一类的问题时，它常常以 “是个主观问题，无法给出答案”来回答，或者按照典型模板“一方面，另一方面，总之……”的句式进行废话输出。 创造性工作会被率先取代吗？ ChatGPT虽然轰动，但这并不是OpenAI的第一代GPT产品。GPT的英文全称是Generative Pre-Training，直译生成式预训练。2018年，OpenAI公司就发布了第一代GPT产品，可以用于生成文章、代码、机器翻译、问答等各类内容。

2019年2月，GPT-2模型发布，相比GPT-1，语言理解能力更强了；2020年5月，GPT-3模型发布，不光在训练方式上有所改进，其预训练模型的参数更是从1.5亿个，指数级扩展到1750亿个，构造出了当时AI界规模最大的神经网络。此后，在2021年9月的行业会议上，OpenAI 的 CEO 曾提到GPT-4，当时业内人士猜测，GPT-4 可能会在 2023 年初推出。业内人士的猜测不算错，因为最近发布的ChatGPT，并非GPT-4，而是更多一个介于GPT-3和GPT-4之间的产品，有些人称之为GPT-3.5。

图｜OpenAI 官网了解ChatGPT之前，可以回顾一下GPT-3。这个模型出现后，曾开放API接口进行商用测试，有不少公司通过采购它来实现AI聊天。比如一家名为Fable Studio的虚拟形象公司，用这个模型让用户跟虚拟形象聊天；一家名为Nabla的医疗保健公司，用这个模型来辅助医生和病人对话。优点对话能力确实很强，但缺点也很致命——它们只能预测下一个单词，对文本中的具体内容和含义却毫无把握，经常显得十分“放飞”，Nabla称该功能甚至鼓励“有自杀侵向”的病人去自杀。之所以出现这种现象，是因为AI聊天，一开始采用的是 “暴力”学习方式，也就是先建立起一个比人脑更庞大的神经网络，机械式对话。在OpenAI的前几代产品里，也能看到，扩充训练样本，是其主要迭代方向。但GPT-3的训练样本量已经足够大了，根据OpenAI 的 CEO山姆·奥特曼此前公开透露的信息，GPT-4不会再追求训练样本上的大幅增加。事实上，这从ChatGPT上已经有所体现，相比GPT-3，ChatGPT并没有参数规模上的大突破，而是集成了自动问答系统InstructGPT和GPT-3模型，并强化了对模型的训练，在训练中引入了人类监督员。

《边缘世界》剧照 OpenAI的论文显示，在GPT-3中，AI采用的训练方式是“从人类反馈中强化学习”（RLHF），即人类设计算法，提供数据库后，AI对不同的问题自行回答，人类虽然会对学习效果打分，但只提供参考，供AI继续强化学习。但ChatGPT首次使用了“监督微调”（SFT）方法，即由人来问问题，由人来回答，然后让AI模型来学习问答模式本身。此外，在多个环节，ChatGPT都引入了人类评价，供AI学习，甚至包括本次发布产品，实际上也是一次开放公测，好收集更多的真实用户反馈，以改进对话技术和质量。在每一个ChatGPT的回答后面，用户都可以添加一条feedback发送给OpenAI。从这个角度就不难理解这次ChatGPT发布后引起的轰动了，某种程度上，它代表着自然语言领域的AI技术，已经从“量变”发展到“质变了”。

在每条回复后面，用户可以添加反馈山姆·奥特曼曾说，“十年前的传统观点认为，人工智能首先会影响体力劳动，然后是认知劳动，再然后，也许有一天可以做创造性的工作。现在看起来，它会以相反的顺序进行。” 如今AIGC（AI技术自动生成内容的生产方式）的发展显然正在印证这一点。前阵子火遍社交网络的AI作画，虽然很多时候人们看到的只是半截扭曲的人脸，从天而降的断桥，显得完全不顾现实逻辑。但也有一些时候，仅仅一串字符后，就有令人惊艳的作品出现。基于此，一场关于AIGC的军备竞赛已经开启。最近，除了主要由微软注资的OpenAI发布的ChatGPT，谷歌系的AI研发机构DeepMind最近也发布了一款AI写作工具“Dramatron”，专门写剧本的，标题、角色列表、情节、场景描述和对话等要素样样齐活。国内各互联网大厂同样在AIGC领域有所投入，其中同样有产品已经能进行作文、新闻稿、小说、文案等创作。 从这个角度，新一代AI产品或许将重新定义，什么是真正的创造性劳动。

图｜OpenAI 官网 宕机和商业化 在定义创造性劳动之前，起码在当下，高水平AI工具还面临着一些其他的小小问题。

随着涌入的用户越来越多，ChatGPT对算力的需求变得越来越高。12月12日进入网页后，系统上的提示是，“我们正在经历异常高的需求，在我们努力扩展我们的系统时，请稍等片刻。” 其实两天前的晚上，我就发现它已经有些疲软了。当时我邀请它，“来做个数字游戏吧”，ChatGPT本来欣然答应，还制定好了规则。结果才玩到第四个回合，ChatGPT就不再有反应了。它宕机了！再问，就是“too many questions，please slow down。”等到再开一局时，它甚至不承认自己会玩数字游戏了。在翻脸速度上也能比肩人类了啊。

事实上，GPT产品的每一次产品迭代，都意味着算力成本的大幅增长。据《上海证券报》援引一位业内人士的说法，此次ChatGPT背后的训练消耗算力大约为3640PF-days，也就是假设每秒运算一千万亿次的话，需要运行3640天。作为一家创业公司，OpenAI选择的还是一种相对轻快的数据存储和运行办法——上云。目前ChatGPT的训练都是基于微软的超算基础设施（由V100GPU组成的高带宽集群）完成。有报道指出，OpenAI每年在微软云计算上花费约为7000万美元。但与此同时，OpenAI距离商业化落地还有很长一段时间，毕竟它现在依然经常“不懂装懂”，制造错误信息。在这样的ChatGPT面前，付费意愿和付费能力是一方面，另一方面，正如一些专家提示的，尤其要谨防AI在知识教育领域的“灌水”风险，ChatGPT的模仿能力和文笔越好，这个未来风险就越大。

不过话又说回来，在人类为主的知识教育领域，就没有“不懂装懂”的“灌水”风险了吗？恐怕也未必。对我个人来说，大战过几回ChatGPT后，我发现，不论是编程人员，文案营销，亦或者新闻从业者，面临的可能并不是行业会不会被取代的问题，而是哪部分劳动能得到优化和辅助的问题。毕竟AI和人脑的一个根本区别在于，它只能从过往获取“组合式”答案，而人类是在一次又一次面对不确定未来的思考中，才走到如今的。 AI能取代人类吗？很多人都把这个问题抛给了ChatGPT，我同样跟ChatGPT讨论了一下这个问题，我告诉它，我觉得ChatGPT不会取代人类，ChatGPT对此表示“你觉得不会，只是你的观点，不代表一个事实”。挺有意思的回答。