博格方略

探讨深度学习框架在端侧OS中的角色

一君_源创会转载编程分享 2025-06-01 20:02:18

简介 5月24日，OSC源创会第113期活动在上海成功举办，本期活动以《LLM与操作系统：协同进化》为主题。百度飞桨硬件生态产品负责人王凯发表《探讨深度学习框架在端侧OS中的角色》主题演讲。首先从市场与技术双重维度分析，王凯指出，当前端侧部署工具呈现开源与硬件专用方案并行的格局。开源方案如MLC-LLM (TVM) 和 llama.cpp，凭借轻量化设计、广泛的硬件覆盖（支持CPU/GPU）、丰富的量化方案以及在PC端的优秀体验，展现出强大的生态...

LFOSSA 人才激励计划 2025 春季奖学金火热招募中！三大类别等你申请！

5月24日，OSC源创会第113期活动在上海成功举办，本期活动以《LLM与操作系统：协同进化》为主题。百度飞桨硬件生态产品负责人王凯发表《探讨深度学习框架在端侧OS中的角色》主题演讲。

首先从市场与技术双重维度分析，王凯指出，当前端侧部署工具呈现开源与硬件专用方案并行的格局。开源方案如MLC-LLM (TVM) 和 llama.cpp，凭借轻量化设计、广泛的硬件覆盖（支持CPU/GPU）、丰富的量化方案以及在PC端的优秀体验，展现出强大的生态属性，为用户提供了开箱即用的便利。而另一方面，硬件巨头纷纷推出专用方案以最大化利用其硬件潜能：Intel的BigDL-LLM 可调用专用神经网络加速核；Apple的CoreML/MLX 能高效利用苹果NPU；高通的QNN-HTP 及其AI Hub、联发科的NeuroPilot 及其Model Hub，均专注于调用自家HTP/APU加速内核，并通过构建模型库和集成框架，打通从模型到推理的闭环体验。成功的端侧生态策略在于提供多硬件、多模型支持，充分借助生态力量扩大规模、提升体验、拓展场景，并通过对接或自建关键模型库，结合硬件市场份额和更优性能形成正反馈循环。

在端侧性能方面，王凯强调了几个关键点：普遍采用int4数据类型以降低模型体积和计算需求；开源方案依赖CPU/GPU运行可能面临功耗挑战；闭源方案则能通过如“投机解码器（lookahead decoder）”等创新方法，实现高达30-50%的额外性能提升。目前业界普遍认为，端侧推理速度达到每秒20个token（20 tok/s）即可满足流畅使用的体验要求。

王凯重点展示了当前大模型在端侧设备上的丰富应用场景，这些场景的核心价值在于本地化处理带来的隐私保护、低延迟和离线可用性：

生产力与辅助功能：如轻量级模型（如Phi-Silica）驱动的PC端应用提升效率；为视障用户提供的本地文本转语音服务；实时生成音频视频字幕，提升听障用户的可访问性。
智能交互与理解：功能有限的离线语音助手执行本地语音命令或回答简单问题；设备上的情绪分析，本地解析邮件或文档语气保障隐私；安全语音搜索在本地文件或数据库中检索；智能听写软件利用本地上下文理解进行纠错。
语言处理：实时语言翻译无需网络连接；离线场景下的正确书写辅助与长文档本地摘要，确保用户快速掌握要点；个性化的语言学习工具提供本地词汇建议和翻译。

展望未来，王凯指出了巨大的机遇所在。现有硬件方案虽在持续优化，但仍可能限制端侧大模型想象力的边界。

转载链接：https://my.oschina.net/u/4489239/blog/18515787

Tags：

11 0 0 0

本篇评论 —— 揽流光，涤眉霜，清露烈酒一口话苍茫。

提交

声明：参照站内规则，不文明言论将会删除，谢谢合作。

ABOUT ME

Blogger：袅袅牧童 | Arkin

Ido：PHP攻城狮

WeChat：nnmutong

Email：nnmutong@icloud.com

探讨深度学习框架在端侧OS中的角色

相关文章

本篇评论 —— 揽流光，涤眉霜，清露烈酒一口话苍茫。

ABOUT ME

点击排行

最新评论

—— 揽流光，涤眉霜，清露烈酒一口话苍茫。

猜您喜欢

博格推荐

标签云

友情链接