西安建网站的公司辛集建设局网站

张小明 2025/12/23 23:45:57
西安建网站的公司,辛集建设局网站,公司企业宣传片拍摄,如何找到外包推广公司编辑部 整理自 MEET2026量子位 | 公众号 QbitAI当国产AI芯片接连发布、估值高涨之际#xff0c;一个尖锐的问题依然悬在头顶#xff1a;它们真的能撑起下一代万卡集群与万亿参数模型的训练吗#xff1f;一边是市场对替代方案的迫切期待#xff0c;另一边是英伟达在利润与估…编辑部 整理自 MEET2026量子位 | 公众号 QbitAI当国产AI芯片接连发布、估值高涨之际一个尖锐的问题依然悬在头顶它们真的能撑起下一代万卡集群与万亿参数模型的训练吗一边是市场对替代方案的迫切期待另一边是英伟达在利润与估值上仍高歌猛进……百度智能云AI计算首席科学家王雁鹏在量子位MEET2026智能未来大会上基于百度昆仑芯在大规模生产环境中的实战经验指出评判芯片实力的标准已从单纯的算力数值转向了能否稳定支撑从百亿到万亿参数、从稠密模型到MoE架构、从单模态到多模态的完整模型谱系训练并能在万卡乃至更大规模集群上实现高效扩展。在演讲中王雁鹏系统拆解了大规模训练中集群稳定性、线性扩展与模型生态三大核心挑战的攻坚路径并回应了行业对MoE时代硬件路径的关切。他认为即便是参数激增的MoE模型“小芯片搭大集群”的路径依然可行其关键在于极致的通信优化与系统级协同设计。为完整呈现王雁鹏的思考在不改变原意的基础上量子位对演讲内容进行了整理编辑希望能给你带来更多启发。MEET2026智能未来大会是由量子位主办的行业峰会近30位产业代表与会讨论。线下参会观众近1500人线上直播观众350万获得了主流媒体的广泛关注与报道。核心观点梳理国产芯片的替代有一个渐进式的过程昆仑芯从第一代开始已经做到了在搜索线上系统全量用推理真正难的是在大规模训练场景。现在Scale换了一个维度变成了模型参数的Scale和任务训练规模的Scale由此带来了整个系统层面的Scale映射到硬件上就有不同的size、各种形状、不同的切分策略和并行策略。当前重要发展方向是MoE它在某种程度上延续了原有的Scaling Law能够继续扩大参数规模同时不增加激活参数规模。但系统层面会面临新的挑战模型参数变得更大、输入序列变长通信占比显著提升占比提升意味着整个模型架构都要有变化。当前我们在百度Qianfan VL、百度蒸汽机都取得较领先的模型效果并已经实现全栈基于昆仑芯的训练。……以下为王雁鹏演讲全文真正的困难在大规模训练场景里大家好我是来自百度智能云的王雁鹏我很长一段时间都在负责AI基础设施建设的工作。今天想跟大家分享的内容是我们如何在生产环境中规模化应用我们的国产芯片。最近国产芯片热度很高很多产品陆续上市也获得了很高估值。似乎国产芯片马上就要在大规模生产环境落地。但同时英伟达仍然保持极高的利润率和上涨的估值市场仍然在购买其产品。这两个看似矛盾的现象背后其实反映了一个事实要真正把国产芯片用起来难度依然非常大。不仅如此除了英伟达之外的国际芯片供应商也同样没有在大规模训练场景中真正跑起来。国产替代一定是渐进式过程。大家都知道在推理场景中问题不大例如昆仑芯从第一代起就已在搜索线上系统实现全量推理真正困难在大规模训练场景里面。第一大挑战集群稳定性大规模训练往往是上万卡的同步系统任何一台卡中断都可能导致任务重启。比如在100张卡的时候有效训练时间是99%但当1%时间因为中断浪费的话线性扩展到一万张卡则意味着整个集群不可用了。因此第一个要解决的便是集群稳定性问题。在芯片层面GPU天生是高故障率器件晶体管数量多、算力高、功耗大同时专注于计算导致监控能力弱整体比CPU的故障率高出多个量级。在这方面我们有两类经验1、事前精细化监控与验证我们必须假设芯片可能存在各种问题——运行变慢、精度异常、数据不一致等因此需要系统级手段提前定位可能的故障而不能依赖芯片自身的报错能力。尤其是在静默错误场景中系统需要能够精准定位故障节点否则训练会长期无法复现。2、故障后的快速恢复能力无论故障率如何总要避免大规模重算因此我们构建了透明Checkpoint和快速恢复机制尽量减少损失。第二大挑战让集群真正扩展起来一个万卡集群必须实现线性扩展否则只有千卡、两千卡的规模意义不大。我们大致经历了三个阶段在百卡集群上验证技术可行性关键在于RDMA通信技术的适配与优化。在千卡集群上由于网络不再对等比如我们不能把任何两个芯片或者两台机器看成在网络任何地方部署性能都一样因此也需要做好网络亲和性调度等复杂优化。在万卡集群则是更大的挑战面对多任务、多并行策略PP、TP、EP 等带来的流量竞争必须实现芯片与网络的联合设计。我们的核心逻辑叫XPU驱动的any to any的通信。以XPU为核心在通信过程中绕过CPU各种影响直接用XPU驱动我们的网络。针对不同流量有不同优先级做整个任务的最优经过这一点我们可以把大规模扩展做上去。第三大挑战模型生态与精度体系英伟达最强的护城河并不只是硬件而是过去十多年沉淀的模型生态成千上万种模型变体、算子体系、框架适配这些都让英伟达在训练精度上保持绝对稳定性。在大模型时代由于Transformer这套架构相对统一国产芯片迎来了机会。但可能很多人忽略的一点是现在Scale换了一个维度变成了模型参数的Scale和任务规模的Scale。而这意味着模型参数可以有不同的规模例如十亿、百亿、千亿同时我们可以跑到不同硬件平台上比如百卡、千卡、万卡这两个维度的Scale则会带来整个系统的Scale。不同于原来模型架构的Scale算子映射到硬件上面会有不同的size不同形状不同并行的策略这个情况下算子能不能稳定地跑出来。我们看到它会在精度和性能上都会存在挑战尤其是精度方面的挑战。换了一个平台甚至可能因为“算子写得不对”、“精度差一点”都可能导致两个月的训练白跑。因此我们做了高度泛化的算子体系针对不同的算子的size做了高强度的泛化同时在泛化基础上还做到小规模验证精度避免每次都使用万卡对比从而保证大规模训练的可靠性。MoE模型与多模态模型的新挑战当前重要的发展方向是MoE它能在不提升激活规模的情况下扩展模型参数延续Scaling Law。但MoE基础上对系统架构也带来新的挑战模型参数变大了输入序列变长意味着通信占比提升了对整个模型架构都会有改变。因此需要极致的通信优化以及显存的协同与计算overlap来完成MoE系统的适配。我们的结论是即便是MoE模型小芯片搭大集群的方式依然可行。多模态模型则带来另一类问题不同的模态会带来不同的训练强度不同模态的计算还用原来的同构拆分方法的话会导致训练的效率非常低典型情况下MFU可能都不到10%。针对这个需要做异构数据均衡的调度适配异构并行策略使得系统能够根据我们workload动态地做并行策略。不管模型是什么样的都能找到最优的运行策略适配模型在这一块需要做优化。衡量国产芯片“能否真正用起来”的标准我们认为有两个关键维度模型覆盖能力覆盖大语言模型、多模态、文生视频等完整体系。集群规模能力从百卡到千卡再到万卡全覆盖。目前我们在模型覆盖上基本达到主流大模型体系在规模上已能跑万卡任务未来还会向数万卡推进。最近大家关注TPU就是因为Google能够用非常优秀的Gemini证明TPU的训练能力——模型绑定硬件硬件才能真正被接受。同样昆仑芯也需要绑定优秀的自研模型。当前我们在百度Qianfan VL、百度蒸汽机都取得较领先的模型效果并已经实现全栈基于昆仑芯的训练。未来我们会继续努力让更先进的模型在我们昆仑芯上面全栈训练出来。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

西安网站建设设计手机微网站建设

Kotaemon框架在Linux环境下的安装与优化技巧 在企业级AI系统从“能用”走向“好用”的今天,一个日益突出的问题摆在开发者面前:如何让大模型真正理解业务、执行任务,而不是只会“一本正经地胡说八道”?尤其是在金融、医疗、客服等…

张小明 2025/12/22 13:35:50 网站建设

网站建设观点知识普及北京企业聚集

utf8mb4 是 MySQL 中真正完整支持 Unicode 的字符集,也是现代 Web 应用(尤其是 Laravel 应用)处理多语言、Emoji、特殊符号的必备配置。一、历史背景:为什么需要 utf8mb4? 1. MySQL 的“伪 utf8”陷阱 MySQL 早期&…

张小明 2025/12/22 13:33:23 网站建设

网站为什么要备案辽宁省建设工程网

第一章:Open-AutoGLM支付链路崩溃事件全景 2023年10月14日凌晨,Open-AutoGLM系统在全球多个区域遭遇大规模支付链路中断,持续时间长达47分钟,影响超过230万笔实时交易请求。该事件暴露出系统在跨服务鉴权、熔断机制与日志追踪方面…

张小明 2025/12/22 13:30:45 网站建设

怎么查看自己网站是否被收录福田企业网站优化哪个好

一、API测试工具生态图谱 1.1 商业化工具矩阵 Postman:集设计、测试、监控于一体的协作平台,支持Collection自动化运行与数据驱动测试 Apifox:国产一体化协作平台,支持API文档、调试、Mock和自动化测试 SoapUI:专业…

张小明 2025/12/22 13:28:02 网站建设

阿里巴巴国际站入驻费用及条件网站模板是什么

Makefile使用指南:规则、变量与依赖管理 1. Make的基本工作原理 Make在处理规则时,会根据第一次遍历收集的时间戳来判断是否需要执行规则中的命令。如果规则中的某个依赖项比目标更新,或者目标缺失,Make就会执行规则的命令来更新目标。在处理规则的第一次遍历中,一些变量…

张小明 2025/12/22 13:25:29 网站建设

焦作网站制作模板网站修改

位于德克萨斯州奥斯汀郊区的一座普通办公楼,看似平凡的建筑,正是亚马逊云科技在2015年收购的专业微电子公司Annapurna Labs的所在地。在这平凡的外表之下,隐藏着极具突破性的创新活动。实验室内,一支由专业工程师、计算机科学家、…

张小明 2025/12/22 13:23:05 网站建设