探讨深度学习框架在端侧OS中的角色

首页 编程分享 EXPERIENCE 正文

一君_源创会 转载 编程分享 2025-06-01 20:02:18

简介 5月24日,OSC源创会第113期活动在上海成功举办,本期活动以《LLM与操作系统:协同进化》为主题。百度飞桨硬件生态产品负责人王凯发表《探讨深度学习框架在端侧OS中的角色》主题演讲。 首先从市场与技术双重维度分析,王凯指出,当前端侧部署工具呈现开源与硬件专用方案并行的格局。开源方案如MLC-LLM (TVM) 和 llama.cpp,凭借轻量化设计、广泛的硬件覆盖(支持CPU/GPU)、丰富的量化方案以及在PC端的优秀体验,展现出强大的生态...


5月24日,OSC源创会第113期活动在上海成功举办,本期活动以《LLM与操作系统:协同进化》为主题。百度飞桨硬件生态产品负责人王凯发表《探讨深度学习框架在端侧OS中的角色》主题演讲。

首先从市场与技术双重维度分析,王凯指出,当前端侧部署工具呈现开源与硬件专用方案并行的格局。开源方案如MLC-LLM (TVM) 和 llama.cpp,凭借轻量化设计、广泛的硬件覆盖(支持CPU/GPU)、丰富的量化方案以及在PC端的优秀体验,展现出强大的生态属性,为用户提供了开箱即用的便利。而另一方面,硬件巨头纷纷推出专用方案以最大化利用其硬件潜能:Intel的BigDL-LLM 可调用专用神经网络加速核;Apple的CoreML/MLX 能高效利用苹果NPU;高通的QNN-HTP 及其AI Hub、联发科的NeuroPilot 及其Model Hub,均专注于调用自家HTP/APU加速内核,并通过构建模型库和集成框架,打通从模型到推理的闭环体验。成功的端侧生态策略在于提供多硬件、多模型支持,充分借助生态力量扩大规模、提升体验、拓展场景,并通过对接或自建关键模型库,结合硬件市场份额和更优性能形成正反馈循环。

在端侧性能方面,王凯强调了几个关键点:普遍采用int4数据类型以降低模型体积和计算需求;开源方案依赖CPU/GPU运行可能面临功耗挑战;闭源方案则能通过如“投机解码器(lookahead decoder)”等创新方法,实现高达30-50%的额外性能提升。目前业界普遍认为,端侧推理速度达到每秒20个token(20 tok/s)即可满足流畅使用的体验要求。

王凯重点展示了当前大模型在端侧设备上的丰富应用场景,这些场景的核心价值在于本地化处理带来的隐私保护、低延迟和离线可用性:

  • 生产力与辅助功能: 如轻量级模型(如Phi-Silica)驱动的PC端应用提升效率;为视障用户提供的本地文本转语音服务;实时生成音频视频字幕,提升听障用户的可访问性。

  • 智能交互与理解: 功能有限的离线语音助手执行本地语音命令或回答简单问题;设备上的情绪分析,本地解析邮件或文档语气保障隐私;安全语音搜索在本地文件或数据库中检索;智能听写软件利用本地上下文理解进行纠错。

  • 语言处理: 实时语言翻译无需网络连接;离线场景下的正确书写辅助与长文档本地摘要,确保用户快速掌握要点;个性化的语言学习工具提供本地词汇建议和翻译。

展望未来,王凯指出了巨大的机遇所在。现有硬件方案虽在持续优化,但仍可能限制端侧大模型想象力的边界。

转载链接:https://my.oschina.net/u/4489239/blog/18515787


Tags:


本篇评论 —— 揽流光,涤眉霜,清露烈酒一口话苍茫。


    声明:参照站内规则,不文明言论将会删除,谢谢合作。


      最新评论




ABOUT ME

Blogger:袅袅牧童 | Arkin

Ido:PHP攻城狮

WeChat:nnmutong

Email:nnmutong@icloud.com

标签云