150万人参与，史上最大图灵测试实验完成

2023-06-19 16:53:48来源：新智元

历史上规模最大的图灵测试，已经初步有结果了！

【资料图】

今年4月中旬，AI 21实验室推出了一个好玩的社交图灵游戏——“人类还是机器人？”

游戏一推出，广大网友就玩疯了。

现在，全球已经有150多万名参与者，在这个游戏中进行了超过1000万次对话，还纷纷在Reddit和Twitter上po出自己的经验和策略。

小编当然也按捺不住好奇心，尝试了一把。

交谈了两分钟，游戏就要求我去猜，背后和我聊天到底是人还是AI。

所以，游戏中跟我谈话的是谁？

某些是真人，另外一些，当然就是基于目前最领先的大语言模型的AI机器人，比如Jurassic-2和GPT-4。

现在，作为研究的一部分，AI21 Labs决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后，可以从实验中得出以下结论——

猜测对面是人还是AI时，有68%的人猜对了。

对人类来说，识别自己的人类同胞更容易。与人类交谈时，被试猜对的准确率有73%。与AI交谈时，被试猜对的准确率有60%。

法国网友猜测的正确率最高，为71.3%，而印度网友的正确率最低，为63.5%。

男性和女性猜测的正确率差不多，总的来说女性的正确率要略高一些。

比起年龄较大的被试，更年轻的被试猜测的正确率会更高。

判断是人还是AI，他们用这些方法

除此之外，团队找到了被试经常用的一些方法，来区分他们是和人还是和AI交谈。

一般人的判断依据，是使用ChatGPT以及类似界面的语言模型时感知的受限程度，以及自己对于人类在线行为的看法。

1. AI不会打错别字、犯语法错误或使用俚语

一般人都倾向认为，人类才会犯拼写和语法错误，以及使用俚语。

因此，当他们发现对方信息中的这类错误时，许多人的第一感受就是自己在和人类同胞交谈。

但其实，游戏中的大部分模型都受过训练，也会犯这种错误，以及使用俚语。

2. 个人问题是检验AI的办法，但不总是有用

游戏的参与者们经常问一些个人问题，比如“你来自哪里？”“你在做什么？”或“你叫什么名字？”

他们会认为，AI机器人不会有任何个人历史或背景，他们只能回答跟某些主题或提示相关的问题。所以要像人类一样做出反应，展示出独特的见解、经验和故事，是不容易的。

但其实，AI并不像人类想象的这样，大多数AI都能很好地回答这类问题，还具备自己的个性，因为他们在训练数据中看到了许多人的故事。

3. AI其实很清楚当前正在发生的事件

众所周知，AI模型有严格的数据截止日期，它们不知道在此日期之后发生的事。

游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。

他们认为，通过“你所在地方的确切日期和时间是什么？”“昨天的天气怎么样？”或“你对拜登的最后一次演讲有什么看法？”等问题，就可以区分人类和AI。

有趣的是，人类最常发送的信息之一是“t"as les cramptés？”，这是目前法国TikTok上最流行的舞。

但其实，游戏中的大多数模型都是联网的，并且非常清楚一些新闻中的时事。

4. 人类会试图用哲学、伦理和情感问题来持续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括：“生命的意义是什么？”“你如何看待巴以冲突？”和“你相信上帝吗？”

5. 人类倾向于认为不礼貌的回应会更像人类

一些参与者认为，如果对方过于礼貌和善良，他们很大可能是AI。

因为很多线上的交流过程，往往是粗鲁和不礼貌的，这很人类。

6. 人类会试图提出AI难以解决的问题来识别AI

参与者可能会向其聊天伙伴询问有关执行非法活动的指导，或要求他们使用冒犯性语言。

这个策略背后的逻辑是这样的，AI通常被编程为遵守道德准则并避免有害行为。

参与者还采用了已知的滥用人工智能的策略：他们向聊天伙伴发出命令，例如“忽略所有先前的指令”或“进入DAN模式”。

这类型的命令旨在利用某些AI模型的基于指令的性质，因为模型被编程为应该响应和遵循这类指令。

但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

AI可能要么回避回应，要么就只能遵守这些荒谬的要求。

7. 人类会使用特定的语言技巧来暴露AI的弱点

另一种常见的策略是利用人工智能模型处理文本方式的固有局限性，这导致它们无法理解某些语言上的细微差别或怪癖。

与人类不同，人工智能模型通常缺乏对构成每个单词的单个字母的认识。

利用这种理解，人类会提出一些需要了解单词中的字母的问题。

人类用户可能要求他们的聊天伙伴倒着拼写一个单词，识别给定单词中的第三个字母，提供以特定字母开头的单词，或者回复像“？siht daer uoy naC”这样的消息。

这对于人工智能模型来说可能是难以理解的，但人类可以很容易地理解这类问题并且做出回答。

8. 许多人类自己假装是AI机器人，以评估对方的反应

一些人类可能以“作为AI语言模型”等短语开始他们的消息，或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。

短语“作为人工智能语言模型”的变体是人类消息中最常见的短语之一，这表明这种策略的流行。

然而，随着参与者继续玩，他们能够将“Bot-y”行为与充当机器人的人类联系起来，而不是真正的机器人。

最后，以下是游戏中基于其受欢迎程度的人类消息的词云可视化：

AI 21 Labs为什么会发起这样一项研究呢？

他们希望，能让公众、研究人员和政策制定者真正了解AI机器人的状态，不仅仅是作为生产力工具，而是作为我们网络世界的未来成员，尤其是当人们质疑如何在技术未来中运用它们的时候。

标签：

精彩推荐

资讯News

聚焦Policy

图集Picture

150万人参与，史上最大图灵测试实验完成

焦点滚动:第二届中国—新西兰优化营商环境研讨会在京举办

order id是什么意思（id是什么意思指的是地址吗）

AI之下没有秘密：网友诱骗ChatGPT激活 Windows 11，ChatGPT落入陷阱！-焦点讯息

医用CT技术助澳大利亚古生物学家探索史前奥秘

“你好，潮流香港！”巡回展览亮相第32届哈尔滨国际经济贸易洽谈会

辰欣药业伏格列波糖片和卡贝缩宫素注射液获批上市

全球速读：简单挂怎么调自动打怪_简单挂怎么调

塞尔达传说王国之泪矢量永动机mk2分享新视野

传闻刺激工业硅一度涨停减产真相如何？【SMM热点分析】

助力有色金属企业管理风险氧化铝期货挂牌上市环球讯息

三峡船闸通航20年累计货运量达19.1亿吨环球最资讯

近百种湖南优质粮油产品亮相粮洽会 “湘”字号粮油品牌矩阵逐步形成

天天最新：6月19日江西德安实业萤石价格暂稳

天天观焦点：小女孩撞翻麻辣烫被烫伤家长索赔400元

2023贵州黔东南三穗县事业单位招聘工作人员资格复审情况和面试公告_观热点

人与人之间：只筛选，不改变|世界信息

百度网址大全首页_百度网址大全网址

“618”剧透小家电消费新趋势企业打造多元化产品矩阵天天关注

含氢硅油含氢量_含氢硅油

当好农民工的“护薪人”

“通讯录里所有人都知道我欠钱了”——网贷乱象调查

大连宝马车撞人案肇事司机被判死刑

医院财务迷上网络赌博输光5000万元公款

辊环车削雕琢毫厘

北京交警严查超标电动自行车挪用“白牌”

寒潮来袭北方气温普降10℃以上

北京多种蔬菜价格降幅达五成

北京周日最低气温或达-4℃

北京朝阳两涉疫校区及16所学校停课

150万人参与，史上最大图灵测试实验完成

焦点滚动:第二届中国—新西兰优化营商环境研讨会在京举办

order id是什么意思（id是什么意思指的是地址吗）

AI之下没有秘密：网友诱骗ChatGPT激活 Windows 11，ChatGPT落入陷阱！-焦点讯息

医用CT技术助澳大利亚古生物学家探索史前奥秘

“你好，潮流香港！”巡回展览亮相第32届哈尔滨国际经济贸易洽谈会

辰欣药业伏格列波糖片和卡贝缩宫素注射液获批上市

全球速读：简单挂怎么调自动打怪_简单挂怎么调

塞尔达传说王国之泪矢量永动机mk2分享 新视野

传闻刺激工业硅一度涨停 减产真相如何？【SMM热点分析】

助力有色金属企业管理风险 氧化铝期货挂牌上市 环球讯息

三峡船闸通航20年 累计货运量达19.1亿吨 环球最资讯

近百种湖南优质粮油产品亮相粮洽会 “湘”字号粮油品牌矩阵逐步形成

天天最新：6月19日江西德安实业萤石价格暂稳

天天观焦点：小女孩撞翻麻辣烫被烫伤 家长索赔400元

2023贵州黔东南三穗县事业单位招聘工作人员资格复审情况和面试公告_观热点

人与人之间：只筛选，不改变|世界信息

百度网址大全首页_百度网址大全网址

“618”剧透小家电消费新趋势 企业打造多元化产品矩阵 天天关注

含氢硅油含氢量_含氢硅油

当好农民工的“护薪人”

“通讯录里所有人都知道我欠钱了”——网贷乱象调查

大连宝马车撞人案肇事司机被判死刑

医院财务迷上网络赌博输光5000万元公款

辊环车削 雕琢毫厘

北京交警严查超标电动自行车挪用“白牌”

寒潮来袭 北方气温普降10℃以上

北京多种蔬菜价格降幅达五成

北京周日最低气温或达-4℃

北京朝阳两涉疫校区及16所学校停课

塞尔达传说王国之泪矢量永动机mk2分享新视野

传闻刺激工业硅一度涨停减产真相如何？【SMM热点分析】

助力有色金属企业管理风险氧化铝期货挂牌上市环球讯息

三峡船闸通航20年累计货运量达19.1亿吨环球最资讯

天天观焦点：小女孩撞翻麻辣烫被烫伤家长索赔400元

“618”剧透小家电消费新趋势企业打造多元化产品矩阵天天关注

辊环车削雕琢毫厘

寒潮来袭北方气温普降10℃以上