作者:Arm 首席解决方案架构师 沈纶铭
基于云的人工智能 (AI) 占据了大多数关注焦点,但真正实现响应和隐私保护的交互则发生在边缘侧。本文将展示如何基于 Arm 架构的 NVIDIA DGX Spark 平台,构建一个完全离线、实时运行的语音助手系统。该系统集成了诸如 faster-whisper 和 vLLM 等开源组件,在无需将数据发送到本地环境之外的情况下,实现低延迟、接近人类对话体验的交互。
技术挑战
对云的依赖困境
在许多企业环境中,技术人员需要快速访问内部文档或获得实时支持。然而,依赖云端 API 会带来三个关键瓶颈:
延迟:与云端 API 的往返通信会打断语音对话的自然节奏。
隐私:将敏感数据发送到外部服务器会带来合规风险,尤其是在涉及专有内容时。
成本与可控性:基于 API 的计费模式和使用限制,会限制系统的扩展能力以及针对特定行业需求的定制化能力。
解决方案
异构的开源流水线
为了应对上述问题,我们在 DGX Spark 上设计了一套流水线,DGX Spark 基于 NVIDIA GB10 Grace Blackwell 构建。在该方案中,CPU 被定位一个主动的、以低延迟为优化目标的计算引擎。
软件栈
为了实现最大的灵活性与性能,整个系统运行在以下开源工具上:

关键组件与系统设计
实时音频与语音活动检测
系统以 16kHz 单声道音频进行采集,并使用 WebRTC 的语音活动检测 (VAD) 在 30 毫秒的帧级别上检测语音信号。该方法能够确保系统只处理有效的语音输入,同时忽略背景噪声和静音间隔。
基于 Arm 架构 CPU 的高速语音转写
对于短时、对延迟敏感的任务,系统并未将其分流到 GPU 上,而是使用高性能的 Arm CPU 集群(Arm Cortex-X 和 Cortex-A 系列核心)来处理。
为什么选择 Arm:Arm 架构针对实时搜索、小批量推理任务等延迟关键型工作负载进行了优化,
性能表现:在 Arm CPU 上运行 faster-whisper 可以满足低延迟需求,在交互式系统中,语音转写时间约为 70 至 90 毫秒。
基于 GPU 加速的推理 (vLLM)
在完成语音转写后,文本会被传递至 vLLM 进行处理。DGX Spark 采用统一内存 (Unified Memory),使 CPU 与 GPU 共享同一内存空间。该设计允许 GPU 直接访问 CPU 的输出数据,从而无需显式的数据传输或消除通过 PCIe 进行拷贝所带来的额外开销。
系统架构流程图
以下流程图展示了在 DGX Spark 上构建的一个高性能异构流水线。系统将任务分配给最合适的计算单元,以降低整体延迟。
图:DGX Spark 异构流水线。Arm CPU 负责 STT 转录,
GPU 负责生成响应,从而显著降低交互延迟。
在该流水线中,Cortex-X 和 Cortex-A CPU 核心用于处理对延迟敏感的任务,例如音频采集和语音转写。这种方式可以实现低于 100 毫秒的响应时间。系统采用统一内存,使 GPU 能够直接访问共享 DRAM 中的转写数据,从而消除了传统 PCIe 数据传输带来的开销。整个流程的最后,由 NVIDIA GPU 运行 vLLM 引擎生成智能响应,从而实现高吞吐量且具备隐私保护的对话体验。
演示:
本地语音交互与性能指标
我们通过一个多轮“订阅取消”场景对系统进行了验证。系统能够生成经过验证、基于事实的回答,并且未出现幻觉 (hallucination) 问题。
性能指标:延迟拆解
以下数据记录了从用户语音结束到大语音模型开始生成响应之间的精确时间(即响应延迟)。

观察结果:所有对话轮次的平均响应延迟约为四秒。该性能表现可与基于云的解决方案相媲美,同时在无需网络连接的情况下提供了更强的隐私保护。
构建你自己的系统?
理解 Arm 架构 AI 能力的最佳方式是亲自实践。为此,我们准备了一套完整的、循序渐进的 Learning Path,帮助你部署这一流水线。快来动手实践吧!
该 Learning Path 将指导以下内容:
如何为边缘设备配置专业级麦克风采集系统;
如何针对 Arm Cortex-X 优化 faster-whisper;
如何使用量化模型部署 vLLM,以最大化本地吞吐性能。
- 随机文章
- 热门文章
- 普源信号发生器DG5072的模拟调制与数字调制对比
- 是德频谱分析仪N9020A互调失真测量技巧
- 猿声科技完成新一轮战略融资,柯力传感出手 看好多维触觉技术
- 被收购后,浙江温度传感器龙头终止挂牌“新三板”
- 工业园区变压器负载超限、电费居高不下?安科瑞光伏监控系统一招破局!
- 虹科波形实验室 | 用串行译码诊断车辆漏电问题的方法探究
- 赣州市章贡区市场监督管理局章江分局全力护航高考,筑牢监管防线
- 中国中药协会第六届杜仲大会召开 推动中医药产业应用创新
- 全新奥迪Q5L实车曝光 , 搭载2.0T发动机对宝马奔驰发起冲击
- 美国大举扩充成熟制程
- 1感染甲流后该如何科学调养?饮食起居这样做,感染甲流后该如何科学调养?饮食起居这样做
- 2马克龙去的这所大学,太宝藏了吧!,马克龙去的这所大学,太宝藏了吧!
- 3北方多地迎来降雪降温天气 各部门联动“战”寒潮筑牢安全防线,北方多地迎来降雪降温天气 各部门联动“战”寒潮筑牢安全防线
- 4“无保护”攀岩真的无保护吗?“无保护”攀岩真的无保护吗?
- 5福州发布公告:吴石故居将封闭施工,展开系统性修缮
- 611月份“菜篮子”产品价格呈现季节性上涨 多因素推高生产成本,11月份“菜篮子”产品价格呈现季节性上涨 多因素推高生产成本
- 7科学家的照片排在董事长之上,科学家的照片排在董事长之上
- 8城中话债|激活民间投资:让有效率的资本站上C位
- 9晚间重磅!又一万亿级券商将诞生 券业并购潮涌
- 10何立峰:有力有序有效做好2026年金融重点工作