最近一篇名为“GPT-4通过图灵测试了么?”的论文在AI圈火了
研究人员安排了两个角色,调查员和见证人,调查员负责查明自己在与人工智能还是人类聊天,而见证人需要让对方相信自己是人类;
这次测试共有652名参与者 完成1,810次游戏
有几个有意思的点
为了让模型更像人,研究人员专门写了Prompt,比如鼓励有一定的拼写错误,还告诉模型应该粗鲁和高冷一点。图2是Prompt;
研究人员发现,人们主要通过闲聊和询问相关知识和时事的方式来判断;
研究人员发现,调查员判断主要基于语言风格和情感,而不仅仅是智力;
另外研究人员表明,调查员个人的教育程度对大预言模型的熟悉程度并不能提升他们预测人工智能成功的概率;
最终结果,60年前AI聊天机器人ELIZA得分比GPT3.5更高,主要是因为机器过于老旧很多问题回答不上来,让人感觉他很高冷像是人类在扮演,而GPT-4成功率41%,有通过图灵测试,但是还是骗过不少人类,仅次于真人;
科技人工智能