皇冠信用网
热门标签

巴黎奥运会足球_“神秘的东方力量”出现,全球科技圈慌了?

时间:2025-01-28   阅读:376   评论:152

如何代理皇冠信用网皇冠代理出租(www.huangguan.hk)开会员号,占成\登3代理\皇冠皇冠信用网_皇冠信用网招登1登2平台出租AI圈又领教了一回“神秘的东方力量”巴黎奥运会足球。

1月20日,国内人工智能技术企业深度求索(DeepSeek)官宣了其最新AI推理模型DeepSeek R1巴黎奥运会足球。该模型在数学、代码和自然语言推理等任务上表现优异,性能直接对标美国OpenAI最新的推理模型o1。此时,距离o1的正式发布过去还不到半年。

消息一出,AI圈几近沸腾巴黎奥运会足球。社交平台X上,有国外大厂工程师直白表示,其所在生成式模型研发部门“处于恐慌之中”。英伟达资深科学家Jim Fan给予R1极高评价,称其不仅开源,还分享了所有模型训练细节,做了OpenAI“一直声称要做却没做到的事”。一时间,圈内掀起了测试和复刻R1的热潮。1月27日,DeepSeek同时登顶苹果中美两区App免费榜。据媒体报道,这也是唯一一次中国应用能同期在中国和美区苹果App Store占据第一位。

多位业内人士指出,DeepSeek此次最大的贡献,是向世界展示了快速、低成本实现o1同等模型能力的可能性巴黎奥运会足球。清华大学计算机科学与技术系副教授刘知远告诉《中国新闻周刊》,“东方力量”其实就是工程创新加持下的追赶能力。在算力吃紧的情况下,DeepSeek打了一场以少胜多的仗。

巴黎奥运会足球_“神秘的东方力量”出现巴黎奥运会足球,全球科技圈慌了?

DeepSeek R1手机端App下载界面 图/视觉中国

低成本培养出的“数理天才”

DeepSeek R1有多厉害巴黎奥运会足球?

有测试者让R1详细解释勾股定理,R1在不到30秒的时间内生成了完整的图形动画,给出了经典的证明过程,没有出现差错巴黎奥运会足球。另一个常用的测试问题是碰撞检测,测试者要求大模型编写一个程序,使得一颗小球在某个缓慢旋转的几何形状内弹跳,并保持小球停留在形状内。碰撞检测十分考验模型的推理能力,稍有不慎就会导致肉眼可见的物理错误。这项测试里,R1的表现明显优于OpenAI o1 pro模式。

OpenAI于2024年9月发布了推理模型o1,首次实现真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士级别”的科学问答环节上超越人类专家巴黎奥运会足球。新加坡南洋理工大学计算机学院助理教授刘子纬向《中国新闻周刊》解释,传统的ChatGPT模型属于感知模型,擅长提取事件信息。但真实世界的很多任务不能仅靠感知完成,而是需要一定的决策推理,而且越复杂的任务决策成分越多,比如编程、数据分析等。因此,推理模型是业界公认的通往通用人工智能(AGI)不可或缺的模型形态。

展开全文

同为推理模型,在很多方面,R1都与o1的性能持平巴黎奥运会足球。在美国数学邀请赛AIME2024的测试中,R1取得了79.8%的成绩,甚至略高于o1,甩开其他开源模型一大截。编码类任务方面,R1也展现出专家级水平,在算法竞赛平台Codeforces上的表现超过了96.3%的人类参赛者。

在DeepSeek公开的22页技术报告中,有一个展示R1能力的直观案例巴黎奥运会足球。在解决一道复杂数学表达式问题时,R1在解题步骤中突然停下来说“等等,这是个值得标记的啊哈时刻”,随后自主修正了解题过程。“啊哈”类似于人类的顿悟,R1的这种行为完全是自发产生的,而非预先设定。这也意味着,它已经拥有了相当程度的思考和自悟能力。

看上去R1已经走出了“题海战术”,转而进入了探究性学习的领域巴黎奥运会足球。事实上,这正是它的核心技术强化学习与传统监督学习的差别。刘知远指出,传统大模型特别是o1以前的GPT系列模型,都采用监督学习的训练方法,意味着模型学习的目标有标准答案。比如让模型根据一篇文章的部分文字,去预测下一个词。由于用于训练的文章是完整的,因此这个词是固定的,预测结果也有明确的对错。人类就像严厉的老师,对模型的预测行为反复规训。

而强化学习则是在开放环境中进行的任务训练,开发者只会告诉模型,它走出的每一步会得到外部环境怎样的反馈巴黎奥运会足球。模型需要根据反馈,自己学会如何去接近最终目标。“这个世界没有那么多纯数学题,因此无法永远通过给标准答案的方式,让模型完成监督学习。”刘知远说。从监督学习向强化学习的范式转变,是实现推理模型的关键。

刘子纬指出,o1可视作大模型强化学习的鼻祖,但其没有公开技术文件,因此其强化学习的具体技术路线和占比,只能靠业内猜测,但可以确定其采用了预训练、监督微调、强化学习的流程巴黎奥运会足球。预训练类似“背书自学”基础知识,监督微调类似学生模仿教师的示范来解例题,最后强化学习相当于“模拟考试”。而R1则抛弃了监督学习,也就是跳过了例题阶段,仅凭基础语言能力和数学规则,在持续解题试错中自悟方法论,考出高分,这一点得到了绝大多数从业者的赞叹。

而除了性能外,R1更令人震撼的优点在于便宜巴黎奥运会足球。2024年底,DeepSeek推出V3模型,作为R1的前体,训练成本仅为557.6万美元,而2020年发布的GPT-3的训练成本接近1200万美元,GPT-4更是超1亿美元。技术报告显示,R1面向开发者的服务定价为每百万输入字符串(token)1—4元,这一价格只有o1的1/30左右。

R1怎么能如此便宜?刘子纬认为,算力达到一定量级的情况下,可以通过工程创新把性能差距抹平巴黎奥运会足球。在堆算力的“大力出奇迹”路线进入瓶颈后,DeepSeek选择了在底层算法、训练模式和数据三个层面进行了工程迭代。基于混合专家模型、注意力机制等方面的创新,R1做到了“用50次运算达成别人做100次运算的效果”,效能提升明显。而在抛弃监督学习后,计算资源的需求也大幅减少。

由于超高性价比,1月27日,苹果App Store中国区免费榜显示,DeepSeek站上首位巴黎奥运会足球。同时,DeepSeek在美区苹果App Store免费榜从昨日的第六位飙升至第一位。有业内人士称,R1已经成为美国顶尖高校研究人员的首选模型。一位不愿具名的来自澳门大学的AI研究者向《中国新闻周刊》表示,R1完全可以取代日常科研对GPT模型的使用需求,在对科研文章的错误识别、修改润色、语言转换上都表现出色。

商业化落地仍待探索

尽管R1展现出了惊人的推理能力,但它的思维过程可能难以被人理解巴黎奥运会足球。技术报告指出,纯强化学习训练出来的模型存在可读性差和语言混杂问题,有用户反映多语言输入可能会造成模型输出混乱,有时中文的提问也可能得到英文的回答。这一现象更多出现在纯强化学习的R1-Zero模型中。

刘子纬也将R1形容为“有些偏科的数理天才”巴黎奥运会足球。R1在他眼中虽然很聪明,但给出的文字回复相比于o1缺乏流畅性和情绪价值,显得笨拙。“公司定位会导致其偏重模型性能。”刘子纬说。由于DeepSeek还在提升模型能力,尚未开始优化用户体验,因此用户亲和度方面还有待提升。在这一点上,OpenAI涉足较早。

但当创作任务涉及推演和类比时,R1的表现仍可圈可点巴黎奥运会足球。有测试者用简单的几个提示词,就让R1在极短时间内创作了一篇情节精彩的科幻小说。社交平台上,有电影评论账号喂给R1《出师表》,让其仿照该文体创作一篇影评,R1给出了符合文言文规范,且“超越一般影评人”的洞见。刘子纬认为,模型的推理能力可以迁移到文学,令其产生通过逻辑思辨的方式创作议论文的能力。

用户使用R1的过程中,偶尔会得到错误答案,甚至有用户发现询问R1身份时,其可能自称o1巴黎奥运会足球。这种混乱广泛出现在现有大模型中,有业内人士认为,这源于大多数模型对OpenAI基础模型的蒸馏。蒸馏即将训练过的“教师模型”的知识传递给“学生模型”,从而在最大程度保存原模型性能的同时,大幅缩减计算资源消耗。“有模型做到了60分,我想迅速达到55分的水平,比较快的方式就是去蒸馏一个‘教师模型’,可以迅速拿到模型反馈,暴露思维过程,得到可贵的数据基础。研发初期,许多企业都依靠或者部分依靠模型蒸馏。”刘子纬坦言。

由于原模型只能提供60分的答案,要涨到70分就得靠模型努力找一条新路巴黎奥运会足球。因此蒸馏无法形成模型的真正迭代。刘知远认为,强化学习是通向AGI的重要版图之一,符合人类认知世界的方式,已成为大模型未来发展的业内共识,强化学习的技术成熟也需要时间。

刘子纬指出,R1使用了一些GPT-4o产生的数据去做“热启动”,让模型先形成对现有问题的基本认知,这也被称为数据蒸馏巴黎奥运会足球。相比之下,完全通过“冷启动”让模型立刻进入强化学习状态是非常困难的。“一个小学生学习知识也得先学课本,达到一定智力水平后,再进入实践中学习。”用真实数据而非模型数据训练模型是开发者的共识,但真实数据的筛选、清洗、降噪等工作并不容易。

“即使用模型输出数据也很难保证训练结果,这取决于人类给模型创造了怎样的问题,以及提供怎样的答案巴黎奥运会足球。”刘子纬说。例如DeepSeek使用了大量代码数据、数学题甚至奥数题用于训练R1。“如何将这些数据喂给模型,需要大量创新。”

从这个意义上说,R1的表现已足够出色,而它的创造者的主业甚至不是AI巴黎奥运会足球。DeepSeek背后的投资公司为幻方量化,是一家依靠数学与计算机科学进行量化投资的基金公司。该公司从2016年起将深度学习模型应用于实盘交易,囤积了大量算力,正式成立大模型团队DeepSeek的时间则是2023年。“也算是副业做得比主业出圈的典型了。”刘子纬说。

大模型企业仍需审慎研判模型的商业价值,也就是能不能赚钱巴黎奥运会足球。刘知远指出,国内外企业都还在寻找大模型的最佳变现方式。目前,市场上已有多家企业具备做出GPT水平大模型的能力,接下来要考虑区分度是什么,落地的用户App是什么,以及在价格战的前提下如何收回上亿元的研发成本。这些问题的答案都还相对模糊。

刘子纬认为,大模型已足够强,但在垂类上跟用户需求还没有紧密贴合,未来AGI的核心交互形态也尚无定论巴黎奥运会足球。目前,国内外大模型企业一部分继续高举高打AGI,保证模型能力,通过用户来试探落地方式。比如有学生用大模型来备考、写论文等。另一部分企业则专注于做垂类应用,比如医疗领域。刘子纬预计,2025年会涌现一大批大模型应用,是真正的“强化学习之年”。

多位业内人士表示,DeepSeek真正的价值,在于展示了工程实践和理论创新之间的平衡点,开创了一条符合现实算力约束的技术迭代道路巴黎奥运会足球。“R1说明开源 AI 仅落后于闭源AI 不到 6 个月。”在刘知远看来,GPT阶段也就是2023年初的时候, OpenAI模型发布之后,国内团队需要一年的时间才能赶上。但是到了文生视频模型Sora,以及后来的GPT-4o和o1,国内的追赶时间缩短到半年以内。

“DeepSeek的阶段性成果释放了一个信号,那就是通过芯片禁运等方式来遏制国内AI发展难以行通巴黎奥运会足球。这就是开源的力量。”刘知远说。

记者:周游

编辑:杜玮

上一篇:巴黎奥运会足球_官方:重庆铜梁龙签下山东泰山B队球员张英凯,曾入选国少

下一篇:巴黎奥运会足球_哈尔滨市中医医院李玺琨、李倜成功获批哈尔滨市突出贡献中青年专家

猜你喜欢

网友评论