视觉 · 感知像素
从「看见」到结构化世界
以多模态视觉感知为入口,实现实时像素级场景解析,将物理环境转化为可推理的结构化表征,为上层认知提供高保真、低延迟的感知底座。
左侧 TurboCore 拉满推理与成本效率,右侧 AuraCore 注入共情与隐私黑盒。
TurboCore
理智核 · 逻辑与吞吐
数据流与逻辑链路环绕:投机解码、KV 与端云协同。
BingoClaw
双核汇聚
理智与情感在此汇流,驱动具身本体
AuraCore
共情核 · 情绪与边界
神经元式微闪烁与心跳节律:多模态情感在端侧闭环。
Overview
以 VLEA 场景大脑为中枢,TurboCore 与 AuraCore 分别承担理智引擎与共情引擎;下表从功能、算法、指标到应用对齐三列分工。
| 维度 | VLEA 场景大脑(核心架构) | TurboCore(理识核 / 理智引擎) | AuraCore(共情核 / 情感引擎) |
|---|---|---|---|
| 功能定位 | 全栈中枢:负责物理空间感知、认知决策与任务闭环。 | 算力底座:负责逻辑推理加速、任务拆解与成本优化。 | 感知前哨:负责环境情感建模、人机共情与隐私保护。 |
| 核心算法 | 时空语义融合、物理一致性世界模型。 | Speculative Decoding(投机采样)、KV Cache 硬件优化。 | 多模态特征融合、微表情 / 声学非言语分析。 |
| 核心指标 | 跨场景迁移能力指数级提升。 | 2–3× 推理加速;50%+ Token 成本节省。 | <50ms 交互延迟;90%+ 隐私数据本地率。 |
| 交互价值 | 解决「能不能做、做不做得成」的问题。 | 解决「快不快、省不省」的落地难题。 | 解决「懂不懂、暖不暖」的共情门槛。 |
| 隐私逻辑 | 场景知识解耦,保障业务逻辑安全。 | 端云协同:数据不出端,仅上传脱敏特征向量。 | 物理隔离:原始信号瞬时销毁,仅输出情绪标签。 |
| 技术目标 | 构建「插拔式」通用具身智能底座。 | 实现边缘侧大模型的低成本、高效率普及。 | 打造具备「情感反射弧」的温情具身智能。 |
| 典型应用 | 复杂工厂调度、全自主家政服务。 | 24/7 持久在线的边缘推理服务器。 | 心理健康筛查、智慧教育、适老化陪护。 |
Technology
我们不从「通用大模型 + 简单插件」切入,而以真实场景里可验收的时延、准确率、并发与合规指标倒推:数据形态、模型结构、端侧算力与隐私策略一体设计,再沉淀为可复用的场景大脑平台。
1 · 场景锚定
在教育、心理、视光等垂类明确交互时延、准确率、并发与合规红线,用场景定义「大脑」要优化的目标函数。
2 · 数据闭环
规模化终端产生具身闭环数据(感知—行动—反馈—修正),用于抑制幻觉、加速域迁移,而非仅靠互联网语料。
3 · 模型统一
VLEA 将 Vision / Language / Emotion / Action 纳入同一套端到端表征与训练目标,避免传统「感知→理解→决策→执行」长链路误差累积。
4 · 端云一体与双核协同
TurboCore 承担高频推理、投机解码与隐私敏感特征处理;AuraCore 并行承担情感警觉与应激反射;云端承担重推理与持续蒸馏,整体成本、TTFT 与心理安全指标可写入招标文件。
情感维度下沉至推理层,面向高共情人机交互;与医疗、教育场景的 SOP 与安全护栏联合设计。
跳转下文 →冷逻辑侧(推理加速、Token 经济学)与热情感侧(情感反射、心理安全边界)片上协同,对应新皮质—边缘系统式分工。
跳转下文 →本地 Draft 预判 Token、云端 Oracle 并行验证,典型加速比约 2–3×,并降低上云调用频次。
跳转下文 →KV Cache 与投机采样在芯片与运行时协同优化,云端 Token 节省率 50%+、首 Token 延迟 TTFT <100ms 为工程优化方向。
跳转下文 →情感本能反射、存算一体情感算子、跨文化元学习适配,支撑 VLEA 中 Emotion 维度的硬实时闭环。
跳转下文 →「数据不出端,特征才上云」:单向不可逆 Embedding,满足政企与医疗尽调中对原始数据可控性的要求。
跳转下文 →「场景驱动大脑,大脑赋能本体」:先垂直深耕再跨场景迁移,指数级提升可迁移性。
跳转下文 →算法逻辑 · 技术底层 · 竞争护城河
核心技术 1:从垂直场景到通用世界模型能力
场景大脑在物理空间中完成感知—决策—闭环;随着场景模型迁移性增强,系统逐步获得更接近通用世界模型的能力。
VLEA(视觉、语言、情感、行动)并非简单串联,而是端到端(End-to-End)联合推理:从「像素感知」映射到「共情决策」,缓解传统 VLA 在复杂人机交互中因缺乏情感反馈而产生的指令幻觉。
将情感从应用层下沉到推理层:捕捉微表情、语调波动,实时调整动作力度与节奏——在医疗康复、智慧教育等场景形成溢价。
在世界模型中引入物理一致性损失(Physics-consistency Loss),经大量物理交互观测,使模型预判重力、形变等结果。
10 万+ 终端产生的是具身闭环反馈数据(Action-Feedback-Correction),而非互联网「死数据」;规模化积累带来跨场景迁移的代差优势。
场景不仅是应用场所,更是数据生长的土壤与模型基础。
我们不从大而全的通用模型起步,而先进入课堂、医疗、餐饮、工厂等高频、高价值、高数据密度的垂直场景;场景定义了大脑要学习的物理法则与交互逻辑。
垂直场景的深度渗透会带来技术与数据的溢出效应。
场景越多,迁移边际成本越低,最终从「特定场景专家」跃迁至「全场景通用大脑」。
闭环反馈数据无法被爬虫或纯合成数据替代。
物理一致性的真实交互数据,是快速迁移、抑制「水土不服」与幻觉的核心资产。
我们不在每个新场景重复造轮子:通过 VLEA 将垂直场景的成功经验沉淀为通用具身常识;场景边界不断外推时,迁移性呈非线性增长。最终交付「插拔式」具身场景大脑——进入新场景仅需少量样本即可定位痛点并接管任务。随着场景数量与迁移性提升,系统将逐步获得通用世界模型能力。
VLEA World Model
本节阐述技术栈:将视觉、语言、情感与行动纳入同一表示空间协同优化,支撑场景大脑在真实物理交互中的感知、理解与闭环执行。公司定位与使命见 首页 · 关于缤果。
区别于传统的 VLA 模型,缤果科技从第一性原理出发,创新性地将 情感计算(Emotion) 引入底层逻辑。通过视觉、语言、情感与行为决策的深度融合与端到端联合推理,我们赋予机器人从「感知像素」向「认知世界」的跨越——让机器不仅能「看见、听懂」,更能「深度理解、共情沟通、精准行动」。
Framework
感知、语言、情感与行动在同一表示空间中协同优化,驱动场景大脑持续进化。
从「看见」到结构化世界
以多模态视觉感知为入口,实现实时像素级场景解析,将物理环境转化为可推理的结构化表征,为上层认知提供高保真、低延迟的感知底座。
听懂意图,拆解复杂目标
深层次语义理解与任务拆解:对指令、语境与常识进行联合建模,将自然语言与可执行规划对齐,支撑复杂任务的层次化分解与持续对齐。
范式跨越的关键变量
区别于传统 VLA,从第一性原理将情感计算嵌入底层逻辑:多模态情感识别与共鸣表达,实现人机共情沟通,让智能体在真实交互中具备「温度」与可信度。
决策即执行
在物理一致性与安全约束下完成行为决策与精准执行,将模型输出可靠映射为连续控制与操作策略,打通「理解世界」到「改变世界」的最后一公里。
落地实践:目前已在教育、心理健康、智慧工厂等核心领域完成深度部署。数据壁垒:累计接入超过 10 万台 智能终端,沉淀亿级多模态交互数据,闭环反馈(Action-Feedback-Correction)驱动数据飞轮。科研底蕴:拥有超过 100 人 的专业科研团队 MediaLab@UESTC 专注于该领域研发;核心科研团队源自清华大学、电子科技大学、中山大学、北京大学等顶尖学府,拥有 200 余篇学术论文及 100 余项核心专利。
10 万+
智能终端接入
真实场景多模态数据壁垒
200+
学术论文
持续产出前沿成果
100+
核心专利
工程与算法双轮沉淀
情感识别准确率
>95%
响应延迟
<100ms
Token 节省率
50%+
推理加速比
2–3×
Dual-core silicon
TurboCore 面向具身智能在物理世界中持续运行所需的「冷逻辑」——高效率、低时延、可审计的推理与 Token 经济学;AuraCore 则承担社会化生存所需的「热情感」与共情通道,使机器在与人共处时具备可解释的情绪反应与安全边界。
在系统结构上,这一组合对应于在硬件与运行时层面对「新皮质(Neocortex)与边缘系统(Limbic System)」协同的类比:一侧擅长序列推理、约束满足与端云协同;一侧专职情绪评估、应激检测与保护性动作触发;两核通过片上互连与统一数据面协同,而非简单把情感当作后处理插件。
| 特性 | TurboCore(理智核) | AuraCore(共情核) |
|---|---|---|
| 功能定位 | 逻辑推理、任务拆解、Token 压缩 | 情绪感知、共情反馈、隐私屏障 |
| 核心算法 | Speculative Decoding、KV Cache 优化 | 多模态特征融合、微表情时空分析 |
| 交互价值 | 解决「快不快、省不省」 | 解决「懂不懂、暖不暖」 |
| 隐私逻辑 | 脱敏特征上传云端 | 原始信号端侧销毁,仅输出标签 |
核心技术 2
本地快思考 + 云端慢思考 · 云边端协同
面向端侧「既要云端大模型能力,又要省钱、省流、强隐私」的诉求,明确云—边—端协同的具身智能系统架构。
特征映射(Feature Mapping)确立铁律:数据不出端,特征才上云。单向不可逆 Embedding:本地编码将图像 / 音频映射至高维空间,仅上传脱敏特征;云端仅获语义逻辑,无法反推原始数据,构成合规护城河。
Token 节省率 50%+:本地投机验证减少上云频次——既是技术领先,也改善毛利结构。
投机采样在具身交互中引入动态接受率(Acceptance Rate)评估:提高本地预测准确率,可将整体推理加速比稳定在约 2–3×。
Token 效率本质是端侧预判与云端验证的权力再分配。TurboCore 软硬一体方案,使 VLEA 具身大脑跑得更快,也为商业模式在毛利上留出空间。
要点速览
本地 Draft Model(如 TurboCore 上 Qwen-0.8B)预判 Token,云端 Oracle Model 并行验证;整体推理加速比约 2–3×。
本地投机采样显著降低上云频率;云端 Token 节省率 50%+,首 Token 延迟 TTFT < 100ms(KV Cache 硬件级优化)。
「数据不出端,特征才上云」:单向不可逆 Embedding,云端仅获语义逻辑、无法反推原始数据,满足政企与医疗合规。
Affective silicon · AuraCore
核心技术 · 具身智能的情感神经中枢
情感计算(Emotion)下沉至底层逻辑:通过视觉、语言、情感与行为决策的深度融合与端到端联合推理,我们推动机器人从「感知像素」迈向「认知世界」——不仅「看见、听懂」,更能「深度理解、共情沟通、精准行动」。
TurboCore 侧重具身智能的「理智与生存」——推理效率与物理可运行性;AuraCore 则承担情感感知能力,对应「灵魂与共情」:让每一台机器人拥有观察人类情感的眼睛与心脏。AuraCore 定义物理安全之外的第二维安全指标——心理安全边界(Psychological Safety Buffer)。
我们将情绪感知与视觉、雷达同等视为底层传感数据。通过独立芯片,将微表情、声学特征与体态语实时转化为标准化的情感张量(Emotion Tensor),为具身大脑提供「社交导航」级输入。
借助芯片级硬核加速,无需将海量音视频上云即可理解喜怒哀乐。AuraCore 形成「情感反射弧」:在逻辑大脑完成判断前,依对方愤怒或悲伤先行做出语调降频、保持安全距离等具身反应。
情感感知是隐私最前哨。我们坚持「语义提取、特征销毁」:芯片输出脱敏心理状态标签,而非原始私人影像。对人类情感尊严的保护,是进入学校、医院与家庭等私密场景的前提。
不同于仅识别文字或表情的传统方案,芯片侧集成多维度感测:
视觉微表情识别 · Micro-Expression Analysis
捕捉 0.2 秒量级的细微面部肌肉变化。
非言语声学特征分析 · Acoustic Prosody
提取语调、语速、颤音等参数;即便不解语义,也能判断焦虑、兴奋、沮丧等情绪状态。
人体姿态与生命体征感知 · Physiological Mapping
结合激光雷达或毫米波雷达,感知呼吸频率、体态张力,评估生理压力水平。
在边缘侧完成情绪检索与对齐,直接对接 VLEA:
情感基频提取单元(Emotion FEU)
在指令集层优化情感特征提取算子,目标情绪反馈延迟在 50ms 以内。
情感语义对齐
将物理信号转化为标准情感向量(Emotion Embedding),作为 VLEA 世界模型的可直接输入。
标准化接口
类似蓝牙 / Wi‑Fi 模组,通过 SPI / I2C 等接口向各类本体输出结构化「情绪标签」。
情绪交互对实时性要求极高。独立芯片保证:主处理器或云端仍在思考逻辑时,本体已通过身体语言(后退、低头等)完成情感侧第一反应。
情绪数据比文字更敏感。芯片在本地将原始影像 / 声音转为脱敏标签,原始音视频在片内实时销毁;上云仅为「用户当前焦虑度 80%」等标签,而非面孔与声纹。
独立芯片可作「情感触发器」:平时低功耗值守,仅在剧烈情感波动时唤醒高性能主核。
建立面向物理交互的具身情感编码标准,使情绪标签与本体动作、安全策略在工程上可对齐、可审计。
针对情感计算中的时空特征提取(如 3D-CNN、Transformer 注意力路径),在 AuraCore 内设计专用情感算子加速单元;通过存算一体减少多模态数据搬运功耗,使息屏 / 待机时仍保持「情感警觉」。
训练跨人种、跨文化的通用情绪感知基座并固化于硬件,为端侧 Few-shot 微调提供统一先验。
建立硬件触发的「情感反射弧」:在极端负面情绪或生理应激信号下,越过复杂云端编排,直接触发本地保护性动作(后退、降音量、柔和灯光等)。学术价值:定义心理安全边界(Psychological Safety Buffer),作为物理安全之外的第二维指标。
针对不同人种与文化下的表情、语调差异,内置元学习(Meta-Learning)推理引擎;芯片无需全量重训,即可通过端侧极少样本(Few-shot)快速适配当地情感表达,支撑具身大脑全球化部署。
Strategy
公司坚定执行「场景驱动大脑,大脑赋能本体」的自增强飞轮战略。随着场景大脑在不同领域的深度渗透,模型的跨场景迁移性将呈指数级提升;通过海量场景的持续迭代,我们将构建具备全场景理解能力的通用「具身大脑」,实现从垂直智能向通用人工智能(AGI)的跃迁。
演进优先级示例:从教育 / 心理向养老与家庭迁移(情感感知与安全交互高度重合);从受控工厂环境向开放社区逐步放开物理变量,并由 TurboCore 保障端侧实时性。
流程 1
以真实物理场景作为智能进化的土壤。
流程 2
垂直场景的深度数据持续喂养场景模型。
流程 3
场景模型实时指挥物理实体完成复杂任务。