基于Arm架构的NVIDIA DGX Spark平台构建离线语音助手系统

作者:Arm 首席解决方案架构师 沈纶铭

基于云的人工智能 (AI) 占据了大多数关注焦点,但真正实现响应和隐私保护的交互则发生在边缘侧。本文将展示如何基于 Arm 架构的 NVIDIA DGX Spark 平台,构建一个完全离线、实时运行的语音助手系统。该系统集成了诸如 faster-whisper 和 vLLM 等开源组件,在无需将数据发送到本地环境之外的情况下,实现低延迟、接近人类对话体验的交互。

技术挑战

对云的依赖困境

在许多企业环境中,技术人员需要快速访问内部文档或获得实时支持。然而,依赖云端 API 会带来三个关键瓶颈:

延迟:与云端 API 的往返通信会打断语音对话的自然节奏。

隐私:将敏感数据发送到外部服务器会带来合规风险,尤其是在涉及专有内容时。

成本与可控性:基于 API 的计费模式和使用限制,会限制系统的扩展能力以及针对特定行业需求的定制化能力。

解决方案

异构的开源流水线

为了应对上述问题,我们在 DGX Spark 上设计了一套流水线,DGX Spark 基于 NVIDIA GB10 Grace Blackwell 构建。在该方案中,CPU 被定位一个主动的、以低延迟为优化目标的计算引擎。

软件栈

为了实现最大的灵活性与性能,整个系统运行在以下开源工具上:

09805778-3268-11f1-90a1-92fbcf53809c.png

关键组件与系统设计

实时音频与语音活动检测

系统以 16kHz 单声道音频进行采集,并使用 WebRTC 的语音活动检测 (VAD) 在 30 毫秒的帧级别上检测语音信号。该方法能够确保系统只处理有效的语音输入,同时忽略背景噪声和静音间隔。

基于 Arm 架构 CPU 的高速语音转写

对于短时、对延迟敏感的任务,系统并未将其分流到 GPU 上,而是使用高性能的 Arm CPU 集群(Arm Cortex-X 和 Cortex-A 系列核心)来处理。

为什么选择 Arm:Arm 架构针对实时搜索、小批量推理任务等延迟关键型工作负载进行了优化,

性能表现:在 Arm CPU 上运行 faster-whisper 可以满足低延迟需求,在交互式系统中,语音转写时间约为 70 至 90 毫秒。

基于 GPU 加速的推理 (vLLM)

在完成语音转写后,文本会被传递至 vLLM 进行处理。DGX Spark 采用统一内存 (Unified Memory),使 CPU 与 GPU 共享同一内存空间。该设计允许 GPU 直接访问 CPU 的输出数据,从而无需显式的数据传输或消除通过 PCIe 进行拷贝所带来的额外开销。

系统架构流程图

以下流程图展示了在 DGX Spark 上构建的一个高性能异构流水线。系统将任务分配给最合适的计算单元,以降低整体延迟。

图:DGX Spark 异构流水线。Arm CPU 负责 STT 转录,

GPU 负责生成响应,从而显著降低交互延迟。

在该流水线中,Cortex-X 和 Cortex-A CPU 核心用于处理对延迟敏感的任务,例如音频采集和语音转写。这种方式可以实现低于 100 毫秒的响应时间。系统采用统一内存,使 GPU 能够直接访问共享 DRAM 中的转写数据,从而消除了传统 PCIe 数据传输带来的开销。整个流程的最后,由 NVIDIA GPU 运行 vLLM 引擎生成智能响应,从而实现高吞吐量且具备隐私保护的对话体验。

演示:

本地语音交互与性能指标

我们通过一个多轮“订阅取消”场景对系统进行了验证。系统能够生成经过验证、基于事实的回答,并且未出现幻觉 (hallucination) 问题。

性能指标:延迟拆解

以下数据记录了从用户语音结束到大语音模型开始生成响应之间的精确时间(即响应延迟)。

0a518e60-3268-11f1-90a1-92fbcf53809c.png

观察结果:所有对话轮次的平均响应延迟约为四秒。该性能表现可与基于云的解决方案相媲美,同时在无需网络连接的情况下提供了更强的隐私保护。

构建你自己的系统?

理解 Arm 架构 AI 能力的最佳方式是亲自实践。为此,我们准备了一套完整的、循序渐进的 Learning Path,帮助你部署这一流水线。快来动手实践吧!

该 Learning Path 将指导以下内容:

如何为边缘设备配置专业级麦克风采集系统;

如何针对 Arm Cortex-X 优化 faster-whisper;

如何使用量化模型部署 vLLM,以最大化本地吞吐性能。

  • 随机文章
  • 热门文章

您可以还会对下面的文章感兴趣:

暂无相关文章