§ 01 · 核心技术
国内首个
EmoMonte
情感计算引擎
从识别情感 · 到表达情感
自研国内首个情感语音智能体。基于“端到端仿真 + 蒙特卡罗剪枝”的创新路线,让机器从识别情感走向表达情感,从对话工具进化为有温度的陪伴伙伴。

50 种情感 · 全维表达
50种
情绪识别
17种
情绪表达
300ms
对话延迟
↓70%
Token 成本
§ 02 · 技术路线
技术路线对比
区别于传统级联与 ASR+LLM+TTS 拼装路线 · 澜存采用端到端仿真+剪枝的原生融合方案
路线 A · 传统级联
情感独立模块
ASRNLUPolicyTTS
ASR CER 1.9-3.3%SER 89-97% / NLG BLEU 0.86
跨域成功率仅 11-12%
路线 B · ASR+LLM+TTS
情感外接拼装
ASRLLMTTS
LLM 强但需要 ASR-EC识别误差逐级传递
情感模块割裂
澜存路线 · 端到端仿真+剪枝
语音-策略-情感一体优化
端到端语音体
仿真 · 评测 · 剪枝 · 三位一体
- 语音-策略-情感一体优化
- 步数最优 + 成功率高
- 情感与策略统一
1仿真
蒙特卡罗模拟
2剪枝
神经网络剪枝
3评测
监管 AI
模拟用户 ⇌ Bot
§ 03 · 核心能力
六大核心能力
从识别到表达 · 从感知到生成 · 从对话工具到陪伴伙伴
01
情绪识别
50 种通过语音、语言、副语言信息综合判断用户的情绪状态。涵盖从基础情绪(喜怒哀乐)到复杂情绪(焦虑、期待、迟疑、欣慰)的全谱系识别。
02
情绪表达
17 种AI 可自主表达 17 种情绪,不只是合成不同语调,而是把情绪嵌入语义、节奏、停顿与重音中,让对话有温度、有起伏、有真实感。
03
对话延迟
300 ms通过端到端语音体架构、端侧前置处理 + 云端高并发低延迟路由,整体对话延迟压到 300 毫秒,达到自然对话节奏。
04
声纹分析
通过声纹快速区分说话人身份与状态,避免冗余识别与情感推理;可同时支持多人、多角色的差异化交互策略。
05
全双工语音
支持对话过程中的随时打断、补充、纠正,模型可同时听与说,告别“按一下说一句”的对讲机式交互,更贴近真实人际对话。
06
副语言信息
识别叹气、笑声、犹豫、呼吸节奏等非语言信号,并能在表达时自然加入这些“人味儿”细节,让 AI 不只是回答,而是真正在对话。
§ 04 · 工业积累
十年工业积累 · 落地 Know-How
从传统级联架构的 LSTM-CTC · 到端到端的多模态大模型 · 澜存团队亲历并贡献了语音技术的完整演进
2015
2016
2018
2019
2024
2025
LSTM-CTC 工业落地
语音识别开始进入工业级应用
百度 Deep CNN
抗噪声性能显著提升
DFCNN 与 LFR-DFSMN
推动模型轻量化部署
SMLTA 模型
流式解码优化 · 对话进入实时阶段
GPT-4o 端到端多模态
从机器走向人性 · 点亮新一代科技树
澜存 EmoMonte
国内首个情感语音智能体 · 端到端仿真 + 剪枝架构 · 自主表达情绪
2015
LSTM-CTC 工业落地
语音识别开始进入工业级应用
2016
百度 Deep CNN
抗噪声性能显著提升
2018
DFCNN 与 LFR-DFSMN
推动模型轻量化部署
2019
SMLTA 模型
流式解码优化 · 对话进入实时阶段
2024
GPT-4o 端到端多模态
从机器走向人性 · 点亮新一代科技树
2025
澜存 EmoMonte
国内首个情感语音智能体 · 端到端仿真 + 剪枝架构 · 自主表达情绪
17年
工业项目仍稳定运行
98%
AI 工站交付率
300ms
对话延迟下限
70%↓
Token 调用成本



