人工智能“智商”飞涨，但人类智商测试真适合衡量AI吗？-热点-智快网

人工智能“智商”飞涨，但人类智商测试真适合衡量AI吗？

发布时间：2025-02-06 10:01 来源：ITBEAR 作者：江紫萱

近日，在一次备受瞩目的公开活动中，人工智能巨头OpenAI的首席执行官萨姆·阿尔特曼分享了一个引人注目的观察结果：他感受到，近年来人工智能的“智商”正以前所未有的速度飙升。阿尔特曼坦言，这只是一种直觉上的判断，并不具备科学上的精确性，但他认为，人工智能每年在智商上的进步相当于人类的一个标准差。

实际上，阿尔特曼并非首个尝试用智商来衡量人工智能发展的人。在社交媒体平台上，已有不少人工智能领域的意见领袖让各种模型接受智商测试，并根据成绩进行排名。然而，这一做法在专家圈内引发了广泛争议。许多专家认为，智商作为衡量人工智能能力的指标，不仅不合适，甚至可能具有误导性。

牛津大学研究技术与监管的学者桑德拉·瓦赫特在接受采访时表示，尽管用人类的衡量标准来描述人工智能的能力或进步颇具吸引力，但这种做法无异于“苹果与橘子的比较”。她解释说，智商测试本质上是一种相对而非绝对的智力测量方式，在逻辑和抽象推理方面或许有一定的参考价值，但它无法全面反映实际智力，即知道如何让事物运作的能力。

瓦赫特进一步指出，智商测试是基于科学家对人类智力的理解而设计的，因此不能简单地套用到人工智能身上。她以汽车和潜水艇为例，强调这些工具在某些方面超越了人类，但这并不意味着它们拥有更高的智力。人类智力是一个极其复杂的概念，不能简单地将某一方面的性能与之等同。

智商测试的起源可以追溯到备受争议的优生学。参加智商测试的人需要具备强大的工作记忆能力，并熟悉西方文化规范，这为偏见留下了空间。有心理学家甚至将智商测试称为“意识形态上可被操纵的机械智力模型”。

华盛顿大学研究伦理人工智能的博士候选人奥斯·凯斯认为，人工智能在智商测试中表现优异，更多地反映了测试本身的局限性，而非模型的真正实力。他指出，拥有几乎无限内存和耐心的模型很容易“玩弄”这些测试。智商测试作为一种衡量认知、意识和智力的方式，其局限性在数字计算机发明之前就已经被认识到。

伦敦国王学院的研究员迈克·库克也表示，智商测试尽管存在偏见，但它是为人类设计的，旨在评估一般性的问题解决能力，并不适合用于评估以与人类截然不同方式解决问题的技术。他强调，模型在智商测试中可能具有不公平的优势，因为它们拥有海量内存和内化的知识，而且测试往往重复非常相似的模式。

库克还提到，当人类解决问题时，需要应对更多的事情，而且在解决问题时得到的帮助也比人工智能少得多。他以乌鸦使用工具从盒子里取出食物为例，指出这并不意味着乌鸦可以进入哈佛大学。同样地，当人类解决数学问题时，不仅要正确阅读题目，还要避免受到其他思绪的干扰。

AI Now研究所的首席人工智能科学家海迪·赫拉夫在接受采访时指出，我们需要更好的人工智能测试方法。她强调，在计算历史中，我们从未将计算能力与人类能力进行精确比较，因为计算的本质意味着系统一直能够完成超出人类能力范围的任务。这种直接将系统性能与人类能力进行比较的做法是一个相对较新的现象，且极具争议性。

更多>同类内容