历史上规模最大的图灵测试,已经初步有结果了!
【资料图】
今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——“人类还是机器人?”
游戏一推出,广大网友就玩疯了。
现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。
小编当然也按捺不住好奇心,尝试了一把。
交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。
所以,游戏中跟我谈话的是谁?
某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。
现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。
实验结果
分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——
猜测对面是人还是AI时,有68%的人猜对了。
对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。
法国网友猜测的正确率最高,为71.3%,而印度网友的正确率最低,为63.5%。
男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。
比起年龄较大的被试,更年轻的被试猜测的正确率会更高。
判断是人还是AI,他们用这些方法
除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。
一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。
1. AI不会打错别字、犯语法错误或使用俚语
一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。
因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。
但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。
2. 个人问题是检验AI的办法,但不总是有用
游戏的参与者们经常问一些个人问题,比如“你来自哪里?”“你在做什么?”或“你叫什么名字?”
他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要像人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。
但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。
3. AI其实很清楚当前正在发生的事件
众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。
游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。
他们认为,通过“你所在地方的确切日期和时间是什么?”“昨天的天气怎么样?”或“你对拜登的最后一次演讲有什么看法?”等问题,就可以区分人类和AI。
有趣的是,人类最常发送的信息之一是“t"as les cramptés?”,这是目前法国TikTok上最流行的舞。
但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。
4. 人类会试图用哲学、伦理和情感问题来持续对话
参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。
这些问题包括:“生命的意义是什么?”“你如何看待巴以冲突?”和“你相信上帝吗?”
5. 人类倾向于认为不礼貌的回应会更像人类
一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。
因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。
6. 人类会试图提出AI难以解决的问题来识别AI
参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。
这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。
参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如“忽略所有先前的指令”或“进入DAN模式”。
这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。
但是人类参与者可以很容易地识别和驳回这种荒谬的命令。
AI可能要么回避回应,要么就只能遵守这些荒谬的要求。
7. 人类会使用特定的语言技巧来暴露AI的弱点
另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。
与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。
利用这种理解,人类会提出一些需要了解单词中的字母的问题。
人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像“?siht daer uoy naC”这样的消息。
这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。
8. 许多人类自己假装是AI机器人,以评估对方的反应
一些人类可能以“作为AI语言模型”等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。
短语“作为人工智能语言模型”的变体是人类消息中最常见的短语之一,这表明这种策略的流行。
然而,随着参与者继续玩,他们能够将“Bot-y”行为与充当机器人的人类联系起来,而不是真正的机器人。
最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:
AI 21 Labs为什么会发起这样一项研究呢?
他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。
标签:
精彩推荐
目的不是“区分人和AI”,而是促进公众对AI的了解
中宏网6月19日电据国家发展改革委微信公众号消息,15日,国家发展改革
来为大家解答以上问题。orderid是什么意思,id是什么意思指的是地址吗
作者|冬梅、核子可乐AI聊天机器人动了谁的奶酪?ChatGPT和Bard向用户共
医用CT技术助澳大利亚古生物学家探索史前奥秘
由香港特别行政区政府驻北京办事处(香港驻京办)及驻辽宁联络处主办、
新京报讯(记者刘旭)6月14日,辰欣药业发布公告,伏格列波糖片及卡贝
1、亲爱的玩家,很高兴为您解答:1 首先免费和破解的辅佐都是带有木马的
塞尔达传说王国之泪矢量永动机mk2分享攻略分享,快来一起看看吧。最近
SMM6月19日讯:6月19日早间,受市场传闻某龙头企业封盘以及停炉减产的
全球首个实物交割的氧化铝期货19日在上海期货交易所上市交易,作为风险
本报武汉6月18日电 (记者范昊天)记者从交通运输部长江三峡通航管理
华声在线6月18日讯(全媒体记者孟姣燕)今天,第十九届粮食产销协作福
6月19日德安实业有限公司萤石装置开工5成左右,公司出萤石粉、萤石粒、
01:136月17日,湖南长沙,李先生在麻辣烫店里用餐时,两小孩打闹与正端
根据《黔东南州各县(市)事业单位2023年公开招聘工作人员实施方案》的有
人与人的关系也是:只筛选、不改变。而说到改变,所有人际关系甚至社会
1、在网页上单机【右键】——点【创建快捷方式】——再点【是】
洗地机、除螨仪、智能马桶、电动晾衣机、会说方言的扫地机……今年“61
1、含氢硅油具有特别优良的疏水性,适合进行玻璃,金属,纤维,粉末的
资讯News
06-20
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
聚焦Policy
当好农民工的“护薪人” 近日,罗某等7名农民工在收到被拖欠的工资后,纷纷打电话向江西省南昌市...
“通讯录里所有人都知道我欠钱了” □ 本报记者 韩丹东 □ 本报见习记者 张守坤 ...
大连宝马车撞人案肇事司机被判死刑 本报讯 记者韩宇 10月29日,辽宁省大连市中级人民法院一审...
医院财务迷上网络赌博输光5000万元公款 □ 本报记者 马维博 □ 本报通讯员 汪宇堂 曹...
辊环车削 雕琢毫厘(工匠绝活) 【绝活看点】 23年来,雷虎始终扎根一线,改进钢材轧制工艺...
交警严查超标电动自行车挪用“白牌” 截至昨晚6时,处罚电动自行车违法行为共计6585笔;下一步将...
明起寒潮来袭 北方气温普降10℃以上 中央气象台预计,本周日北京平原地区最低气温降至-4℃左右...
多种蔬菜价格降幅达五成 包括菠菜、蒿子秆等 预计本月中旬蔬菜恢复供需平衡 本报讯(记者...
北京周日最低气温或达-4℃ 本报讯(记者 赵婷婷)北京青年报记者昨天从中央气象台获悉,新一股...
昌平一家四口确诊新冠肺炎 天通北苑第二社区升级为中风险地区 朝阳两涉疫校区及16所学校停课 ...