5月24日,OSC源创会第113期活动在上海成功举办,本期活动以《LLM与操作系统:协同进化》为主题。百度飞桨硬件生态产品负责人王凯发表《探讨深度学习框架在端侧OS中的角色》主题演讲。
首先从市场与技术双重维度分析,王凯指出,当前端侧部署工具呈现开源与硬件专用方案并行的格局。开源方案如MLC-LLM (TVM) 和 llama.cpp,凭借轻量化设计、广泛的硬件覆盖(支持CPU/GPU)、丰富的量化方案以及在PC端的优秀体验,展现出强大的生态属性,为用户提供了开箱即用的便利。而另一方面,硬件巨头纷纷推出专用方案以最大化利用其硬件潜能:Intel的BigDL-LLM 可调用专用神经网络加速核;Apple的CoreML/MLX 能高效利用苹果NPU;高通的QNN-HTP 及其AI Hub、联发科的NeuroPilot 及其Model Hub,均专注于调用自家HTP/APU加速内核,并通过构建模型库和集成框架,打通从模型到推理的闭环体验。成功的端侧生态策略在于提供多硬件、多模型支持,充分借助生态力量扩大规模、提升体验、拓展场景,并通过对接或自建关键模型库,结合硬件市场份额和更优性能形成正反馈循环。
在端侧性能方面,王凯强调了几个关键点:普遍采用int4数据类型以降低模型体积和计算需求;开源方案依赖CPU/GPU运行可能面临功耗挑战;闭源方案则能通过如“投机解码器(lookahead decoder)”等创新方法,实现高达30-50%的额外性能提升。目前业界普遍认为,端侧推理速度达到每秒20个token(20 tok/s)即可满足流畅使用的体验要求。
王凯重点展示了当前大模型在端侧设备上的丰富应用场景,这些场景的核心价值在于本地化处理带来的隐私保护、低延迟和离线可用性:
-
生产力与辅助功能: 如轻量级模型(如Phi-Silica)驱动的PC端应用提升效率;为视障用户提供的本地文本转语音服务;实时生成音频视频字幕,提升听障用户的可访问性。
-
智能交互与理解: 功能有限的离线语音助手执行本地语音命令或回答简单问题;设备上的情绪分析,本地解析邮件或文档语气保障隐私;安全语音搜索在本地文件或数据库中检索;智能听写软件利用本地上下文理解进行纠错。
-
语言处理: 实时语言翻译无需网络连接;离线场景下的正确书写辅助与长文档本地摘要,确保用户快速掌握要点;个性化的语言学习工具提供本地词汇建议和翻译。
展望未来,王凯指出了巨大的机遇所在。现有硬件方案虽在持续优化,但仍可能限制端侧大模型想象力的边界。