WithAI.Design

5 min read

译文:你担心人工智能会接管世界吗?

译文:你担心人工智能会接管世界吗?

本文翻译自:https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence

Worried about AI taking over the world? 你担心人工智能会接管世界吗?

你或许应该担心。

今天早上我测试了 OpenAI 的新模型 “o1”1 之后,我的新结论是:

它在 挪威门萨 智商测试中完胜所有其他人工智能:

挪威门萨测试结果

来自我的网站 TrackingAI.org/IQ

自从我二月份的初步测试后,我对人工智能的进展已经感到厌倦了,因为从那时起,人工智能的智商几乎没有任何提高。

这周,一切都改变了。

具体来说,o1 在 35 道智商测试题中答对了 25 道,远远超过了大多数人的水平。你可以 在这里 看到它对每个问题的答案,下面是一些具体的例子:

这是测试中最难的一道题,它答对了:

最难的一道题

正确答案对你来说可能并不明显。对我来说当然也不明显。

o1 给出了这样的解释:

选项 D — 通过分析网格中的模式,我们发现每一列都会组合某些组件,以便在第三行包含所有元素(V 形、倒 V 形、矩形边)。在第三列中,组件 Rleft 和 Rright(矩形的边)还没有出现。因此,空白单元格的正确答案是选项 D,它包括正常的“v”和矩形的两条边,完成了该列的组件集。

所以它说它选择“D”是因为它注意到了一种模式,即每一列都应该包含所有可能的元素。为了让第 3 列包含所有元素,它需要边在底行,而边在“D”中。

它没有解释为什么它选择“D”而不是“B”和“F”,但我找到的一个 YouTube 解释说,这是正确的选择,因为 “8 张图片中的每一张都由对角线上的重复来描述……B 和 E 包含额外的线条,所以 D 是正确答案。”

YouTube 解释器还给出了与 o1 注意到的模式不同的逻辑(侧重于对角线模式),我差点在这里写 o1 的描述是错误的。但在我看来,它检测到的更简单的模式也是有效的。

现在让我们来看一个更符合我水平的问题:

更符合作者水平的问题

OpenAI o1 正确回答并解释说:

在第三行中,模式涉及组合第一个和第二个单元格中的线条并删除任何共同的线条。第一个单元格的线条指向 4:30、6:00、7:30、9:00 和 10:30。第二个单元格的线条指向 1:30、3:00、6:00、7:30 和 10:30。共同的线条在 6:00、7:30 和 10:30。将两个单元格中的唯一线条(1:30、3:00、4:30、9:00)组合起来,就得到了选项 F。

完全正确!

o1 也答错了一些问题。下面的问题与上面的问题 24 涉及完全相同的模式:

但这一次,o1 只看到了模式中的加法部分,而错过了“删除共同线条”的部分。所以它答错了:

在网格中,模式表明,将每行前两个单元格的特征组合起来,就会得到第三个单元格。在第三行中,将带有垂直和水平线的非完整正方形(第三行,第一列)和完整正方形(第三行,第二列)组合起来,就会得到一个完整的正方形,其垂直和水平线都穿过中点。这与 **选项 E** 相符。

它并非万无一失!如果你想知道正确答案,请参阅此注释。2

上述分析中最常见的担忧是,也许一些人工智能有“作弊纸”;也许它们接受过这些问题的训练。3

为了解决这个问题,今年 4 月,一位名叫 Jurij 的博客评论员(他是门萨的成员)提出要为我创建新的智商测试题。然后,我创建了一份调查问卷,其中包括他的新问题和一些挪威门萨的问题,并邀请本博客的读者参与调查。大约有 40 个人参与了调查。

然后我删除了这份调查问卷。这样一来,这些问题就从来没有发布到搜索引擎等可以访问的公共互联网上,应该可以避免被人工智能训练数据所利用。

通过博客读者的调查回复,我 能够调整 新的纯线下智商测试和挪威门萨测试的难度,以便“100”在这两个测试中代表相同的含义。

然后,我将新的纯线下测试提供给了人工智能。在这次从头开始的纯线下测试中,人工智能的表现明显较差:

来自我的网站 https://trackingai.org/IQ (然后点击右上角的“显示离线测试”)

但重要的是,o1 的领先优势仍然巨大!这表明,o1 代表着人工智能推理能力的巨大进步,而不仅仅是包含了特定于智商的训练数据。

由于人工智能的视觉能力还不够好,4 人工智能在这项新测试中表现相对较差的一个原因可能是,问题的文字描述写得不够好,进一步的研究可以包括由不同的人对问题进行多种措辞,以了解人工智能对问题的描述方式有多敏感。

我还想做进一步的研究,以确定这些测试的 _ 人类平均水平 _ 到底在哪里,因为当本博客的读者参加挪威门萨测试时,他们的平均得分只有 103 分。虽然我认为从理论上讲,自愿参加智商测试的本博客读者可能只是 _ 超级好奇的人 _,但在模式分析方面并不比普通人强多少,但这比我预期的要低得多。

我询问了挪威门萨的创始人奥拉夫·霍埃尔·多鲁姆,他的测试是如何规范化的,他说,他是根据 80 个拥有官方智商分数的人对他的问题的回答来规范化的。

虽然这些规范化方法应该能让我们有所收获,但更有价值的做法是,以更大的人群(以人类平均智力为中心)为基础对这些测试进行规范化。这将使我们能够更精确地比较人类和人工智能。

目前,我认为一个比较好的估计是,领先的人工智能智商现在可能在 100 到 120 之间。

分享

在我关于人工智能的第一篇(过时的)文章中,我写了两个 ChatGPT-4 让我失望的案例: 我又问了 o1 这些问题。它都答对了。我还试图欺骗它,告诉它错了,并建议它使用 ChatGPT-4 曾经给出的错误答案。它拒绝了我的推动,并重申了它的正确答案。

新的 o1 模型表明,关于人工智能进展的快速预测正在步入正轨。

在我最初的主要 人工智能智商分析 中,我从 Claude 的改进趋势中推断出人工智能智商可能很快就会达到什么水平:

… 看看它持续的进展:

  • Claude-1 几乎不比随机好多少。它答对了 6 个问题,智商约为 64。
  • Claude-2 每次测试都多得了 6 分(相当于约 18 个智商点)。
  • Claude-3 得了 6.5 分,相当于又多了约 19 个智商点,使其超过了人类的平均水平。

… 现在来看看发布时间……

  • Claude-1 2023 年 3 月
  • Claude-2 2023 年 7 月(4 个月的生产时间)
  • Claude-3 2024 年 3 月(8 个月的生产时间)

一个非常简单的推断表明,我们应该会在 12-16 个月内 看到 Claude-4,它应该能在每次测试中答对 25 道题左右,智商达到 120。 _[OpenAI 的 o1 在 6 个月后发布,正好答对了 35 道题中的 25 道] _

在那之后,再过 16-32 个月,Claude-5 应该能答对 31 道题左右,智商大约为 140。

在那之后,再过 20-64 个月,Claude-6 应该能答对所有问题,并且比几乎所有人都聪明。把所有的时间段加起来,总共是 4-10 年。

当然,这种进步并非理所当然。Anthropic 可能会遇到预算限制、能源限制、监管限制等问题。

我现在认为这个时间表是站得住脚的,而且 OpenAI 在幕后一直领先 Anthropic/Claude 大约 6 个月。

如果是这样的话,那么我们应该会在 2026 年看到人工智能的智商突破 140。

那很快就到了!抓紧你们的帽子。

郑重声明,我对这些测试结果感到相当惊讶,因为自从我 6 个月前开始跟踪人工智能的进展以来,在人工智能的智商没有超过 100 的情况下,我一直被一种虚假的自满情绪所麻痹。

我还认为,所有这些都清楚地表明,人工智能 _ 是智能的 _,并且能够进行推理。它们确实可以访问世界上所有的知识,但它们的能力远不止于此。

与一种传统观点相反,人工智能并不是 _ 仅仅 _ 在反刍从算法中提取出来的词语。是的,它们从根本上来说是在这样做,但预测下一个词变得如此复杂,以至于逻辑和推理似乎是从预测过程中产生的。这是否可能也是 _ 人类 _ 高级智能 _ 起源于 _ 的同一过程?目前还不清楚,但毫无疑问,看到人工智能的曙光开始让我们对自身产生了一些假设。

我也再次对人工智能相关股票和芯片制造商感到乐观,即使它们最近的价格已经上涨。人工智能也是能源密集型的,所以这些公司可能也会有不错的表现。

如果您觉得这样的研究有用,并且您有多余的可支配收入,请考虑订阅以下内容以支持它!例如,仅仅为了获得 _o1_ 的自动化(API)访问权限就花了我 1000 美元,因此,任何运营成本的抵消都将不胜感激:**

您也可以通过免费订阅、点击这篇文章的“喜欢”和分享来提供帮助!

分享

附言:如果您怀疑 OpenAI 的 o1 有多聪明,我建议您亲自尝试一下。ChatGPT 的付费用户可以在此处找到它,名称为 o1-preview

更多 AI 辅助设计和设计灵感趋势,请关注公众号(设计小站):sjxz00。

标签