当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
你们学校的校花都是怎么样的?
中国的歼-10 在世界上是什么水平?
如何看待日本小学校园餐只有一小块鸡肉?
空战的时候可不可以先击落预警机?
巴基斯坦援助伊朗防空,大家怎么看?
脸与身材不符是种怎样的体验?
为什么果粉对苹果非常地宽容?
DLM(扩散语言模型)会成为2025年的Mamba吗?
个人做量化,买不起专业数据库,如何获取 L2数据?
有没有便宜点的AI算力显卡?
谁能劝我不要买NAS?
为什么面对 Adobe 的版权要求下,vposy 大神还能从容不迫?
Rust开发Web后端效率如何?
稍稍一运动就大汗淋漓从中医角度来说是什么原因?
6 月 17 日广东深圳、珠海、中山等多地发布暴雨预警,目前情况怎么样?早高峰出行还顺利吗?
如何看待 Mac mini M4 支持可更换 SSD?
你的低成本爱好是什么?
Cloudflare是一家什么样的公司?
超级喜欢穿短裙正常吗?
你看过哪些以为是段子新闻,结果发现居然是真的?
为什么说男人至死都是少年?
为什么CCTV-6总是能播一些连院线都上不了的电影?
如何评价思源笔记?
男女对立会在10后里缓和吗?
如何评价首个女性友好的编程语言HerCode?
老板说我设计了一周的海报还是不行,我到底该怎么学啊?
做客孩子临走时带走几只玩具,我的孩子抗拒并一直哭,要怎么开导?
***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重?
都说时尚是一个轮回,有哪些老电视剧里面的穿搭到现在都还是很潮的呢?
山姆超市是怎么在中国火起来的?