我知道一个。由于tokenization (词元化)机制以及目前思考模型的局限,让它数字符数很可能得不到正确答案。
| 模型 | 正确答案 | AI输出答案 |
|---|---|---|
| 讯飞星火 | 131,验证后给出174 | |
| 豆包 | 155 | |
| Qwen3-Max-Thinking | 94,验证后还是错的 | |
| Qwen3-Max-Thinking 深度思考 | 155 | 155 |
| Qwen3-235B | 155 | |
| Gemini 3 Fast | 144,列的表是对的,还是算错了 | |
| DeepSeek R1 | 155 |
都是用各种平台的在线界面试的。有趣的是,千问最新的思考模型思考半天反而想错了,只有上深度思考,使劲思考,才对。
至少这个例子显示了目前AI模型的缺陷:不具有真正的思考能力。思考了半天,甚至生成了Python代码,还是错。
我能想到可行的解决方案是,调用外部工具,借助工具弥补所谓的「思考」和「推理」的短板。
哪有什么深度思考啊,瞎编乱造罢了。
这是最近火的AI智商检测题目,类似的还有「Strawberry里有几个r」,这个和上面的统计字符数道理一样。
结论一致,AI尚不具有真正的思考能力。
十几年前,Android刚火那会,有个类似的公众事件,我印象中是用Android自带的计算器算1÷3×3,结果不是1。这个表面上是程序bug,考虑不周,底层的原理是计算机的浮点运算精度问题,是我们现有的数值计算体系的缺陷。
如果懂原理,理解起来就不困难。
亲测可用。AI画图,擅长的就是几个提示词生成一套含义不明的图,作为素材不错。作为非专业是使用者,想控制AI让它生成我期望的构图等等,比较难。
总算有人修复了Octave屏幕显示和输出图片大小一致的问题。
https://www.bilibili.com/video/BV12mZtBTEJB
有个之前看到的词和这个类似,「数据定制服务」。如果过程不透明,任何结果都可以做出来,实验如此,理论计算如此。加上成本越来越低,真实度越来越高的各种生成式人工智能,这个年代最缺的恐怕是「信誉」了,说它比黄金更珍贵不为过。
嘿嘿,没想到过了个年,视频没了。
🫢
不许讨论。
我认为,目前的局限是上面提到的,AI根本不会思考,还是个背题机器,需要把所有的书都看完才能开口,导致模型巨大,吃内存和显存。内存价格已经上天啦,10来年前的DDR3都被召回战场了,我4年前配的X79小主机竟然能再次成为「主流配置」。
https://finance.sina.com.cn/tech/shenji/2025-06-26/doc-infckhuq4913228.shtml
| 学科 | 满分 | Seed1.6-Thinking | Gemini-2.5-Pro-0605 | DeepSeek-R1-0528 | Claude-Sonnet-4 | OpenAI-o3-high-0416 | 平均分±标准差 |
|---|---|---|---|---|---|---|---|
| 理科总分 | 750 | 648 | 655 | 615 | 598 | 579 | 619.00 ± 32.38 |
| 文科总分 | 750 | 683 | 651 | 631 | 633 | 625 | 644.60 ± 23.55 |
| 语文 | 150 | 128 | 126 | 118 | 117 | 95 | 116.80 ± 13.10 |
| 数学 | 150 | 141 | 140 | 145 | 128 | 136 | 138.00 ± 6.44 |
| 英语 | 150 | 144 | 141 | 143 | 142 | 140 | 142.00 ± 1.58 |
| 物理 | 100 | 90 | 89 | 62 | 74 | 65 | 76.00 ± 13.10 |
| 化学 | 100 | 69 | 82 | 72 | 61 | 66 | 70.00 ± 7.84 |
| 生物 | 100 | 76 | 77 | 75 | 76 | 77 | 76.20 ± 0.84 |
| 地理 | 100 | 94 | 78 | 79 | 92 | 90 | 86.60 ± 7.54 |
| 历史 | 100 | 92 | 84 | 67 | 78 | 84 | 81.00 ± 9.27 |
| 政治 | 100 | 84 | 82 | 79 | 76 | 80 | 80.20 ± 3.03 |
从标准差看,物理还是难,其次是历史,化学和地理差不多难度。不过呢,化学的平均分是最低的,说明最难。作为擅长化学的人士,我很欣慰。
https://www.zhihu.com/question/19593597
原来汉语里还真有ruǎ的音。
指出了被林彪反动派利用的孔孟的政治纲领:
用AI整理的,还不错。不涉及数字,纯思考,一般想不错。
我觉得只能说是可能,这些报道标题党了。
从上面的几个事看,独立思考的能力,在任何时候都重要。
我知道一个。由于tokenization (词元化)机制以及目前思考模型的局限,让它数字符数很可能得不到正确答案。
| 模型 | 正确答案 | AI输出答案 |
|---|---|---|
| 讯飞星火 | 131,验证后给出174 | |
| 豆包 | 155 | |
| Qwen3-Max-Thinking | 94,验证后还是错的 | |
| Qwen3-Max-Thinking 深度思考 | 155 | 155 |
| Qwen3-235B | 155 | |
| Gemini 3 Fast | 144,列的表是对的,还是算错了 | |
| DeepSeek R1 | 155 |
都是用各种平台的在线界面试的。有趣的是,千问最新的思考模型思考半天反而想错了,只有上深度思考,使劲思考,才对。
至少这个例子显示了目前AI模型的缺陷:不具有真正的思考能力。思考了半天,甚至生成了Python代码,还是错。
我能想到可行的解决方案是,调用外部工具,借助工具弥补所谓的「思考」和「推理」的短板。
哪有什么深度思考啊,瞎编乱造罢了。
这是最近火的AI智商检测题目,类似的还有「Strawberry里有几个r」,这个和上面的统计字符数道理一样。
结论一致,AI尚不具有真正的思考能力。
十几年前,Android刚火那会,有个类似的公众事件,我印象中是用Android自带的计算器算1÷3×3,结果不是1。这个表面上是程序bug,考虑不周,底层的原理是计算机的浮点运算精度问题,是我们现有的数值计算体系的缺陷。
如果懂原理,理解起来就不困难。
亲测可用。AI画图,擅长的就是几个提示词生成一套含义不明的图,作为素材不错。作为非专业是使用者,想控制AI让它生成我期望的构图等等,比较难。
总算有人修复了Octave屏幕显示和输出图片大小一致的问题。
https://www.bilibili.com/video/BV12mZtBTEJB
有个之前看到的词和这个类似,「数据定制服务」。如果过程不透明,任何结果都可以做出来,实验如此,理论计算如此。加上成本越来越低,真实度越来越高的各种生成式人工智能,这个年代最缺的恐怕是「信誉」了,说它比黄金更珍贵不为过。
嘿嘿,没想到过了个年,视频没了。
🫢
不许讨论。
我认为,目前的局限是上面提到的,AI根本不会思考,还是个背题机器,需要把所有的书都看完才能开口,导致模型巨大,吃内存和显存。内存价格已经上天啦,10来年前的DDR3都被召回战场了,我4年前配的X79小主机竟然能再次成为「主流配置」。
https://finance.sina.com.cn/tech/shenji/2025-06-26/doc-infckhuq4913228.shtml
| 学科 | 满分 | Seed1.6-Thinking | Gemini-2.5-Pro-0605 | DeepSeek-R1-0528 | Claude-Sonnet-4 | OpenAI-o3-high-0416 | 平均分±标准差 |
|---|---|---|---|---|---|---|---|
| 理科总分 | 750 | 648 | 655 | 615 | 598 | 579 | 619.00 ± 32.38 |
| 文科总分 | 750 | 683 | 651 | 631 | 633 | 625 | 644.60 ± 23.55 |
| 语文 | 150 | 128 | 126 | 118 | 117 | 95 | 116.80 ± 13.10 |
| 数学 | 150 | 141 | 140 | 145 | 128 | 136 | 138.00 ± 6.44 |
| 英语 | 150 | 144 | 141 | 143 | 142 | 140 | 142.00 ± 1.58 |
| 物理 | 100 | 90 | 89 | 62 | 74 | 65 | 76.00 ± 13.10 |
| 化学 | 100 | 69 | 82 | 72 | 61 | 66 | 70.00 ± 7.84 |
| 生物 | 100 | 76 | 77 | 75 | 76 | 77 | 76.20 ± 0.84 |
| 地理 | 100 | 94 | 78 | 79 | 92 | 90 | 86.60 ± 7.54 |
| 历史 | 100 | 92 | 84 | 67 | 78 | 84 | 81.00 ± 9.27 |
| 政治 | 100 | 84 | 82 | 79 | 76 | 80 | 80.20 ± 3.03 |
从标准差看,物理还是难,其次是历史,化学和地理差不多难度。不过呢,化学的平均分是最低的,说明最难。作为擅长化学的人士,我很欣慰。
https://www.zhihu.com/question/19593597
原来汉语里还真有ruǎ的音。
指出了被林彪反动派利用的孔孟的政治纲领:
用AI整理的,还不错。不涉及数字,纯思考,一般想不错。
我觉得只能说是可能,这些报道标题党了。
从上面的几个事看,独立思考的能力,在任何时候都重要。