具身智能双核动力引擎

左侧 TurboCore 拉满推理与成本效率,右侧 AuraCore 注入共情与隐私黑盒。

TurboCore

理智核 · 逻辑与吞吐

  • 2–3× 推理加速
  • 50% Token 节省

数据流与逻辑链路环绕:投机解码、KV 与端云协同。

BingoClaw

双核汇聚

理智与情感在此汇流,驱动具身本体

AuraCore

共情核 · 情绪与边界

  • 50ms 实时共情
  • 隐私黑盒

神经元式微闪烁与心跳节律:多模态情感在端侧闭环。

Overview

技术汇总

以 VLEA 场景大脑为中枢,TurboCore 与 AuraCore 分别承担理智引擎与共情引擎;下表从功能、算法、指标到应用对齐三列分工。

  • VLEA 场景大脑:构建具身智能物理空间感知,完成对应任务。
  • TurboCore 负责「理智」:提升推理效率、节省 Token 成本,云边端双脑协同。
  • AuraCore 负责「共情」:捕捉环境情感与场景变化,实现具身情绪感知能力。

场景大脑,双核演进

维度VLEA 场景大脑(核心架构)TurboCore(理识核 / 理智引擎)AuraCore(共情核 / 情感引擎)
功能定位全栈中枢:负责物理空间感知、认知决策与任务闭环。算力底座:负责逻辑推理加速、任务拆解与成本优化。感知前哨:负责环境情感建模、人机共情与隐私保护。
核心算法时空语义融合、物理一致性世界模型。Speculative Decoding(投机采样)、KV Cache 硬件优化。多模态特征融合、微表情 / 声学非言语分析。
核心指标跨场景迁移能力指数级提升。2–3× 推理加速;50%+ Token 成本节省。<50ms 交互延迟;90%+ 隐私数据本地率。
交互价值解决「能不能做、做不做得成」的问题。解决「快不快、省不省」的落地难题。解决「懂不懂、暖不暖」的共情门槛。
隐私逻辑场景知识解耦,保障业务逻辑安全。端云协同:数据不出端,仅上传脱敏特征向量。物理隔离:原始信号瞬时销毁,仅输出情绪标签。
技术目标构建「插拔式」通用具身智能底座。实现边缘侧大模型的低成本、高效率普及。打造具备「情感反射弧」的温情具身智能。
典型应用复杂工厂调度、全自主家政服务。24/7 持久在线的边缘推理服务器。心理健康筛查、智慧教育、适老化陪护。

Technology

技术路线和框架

我们不从「通用大模型 + 简单插件」切入,而以真实场景里可验收的时延、准确率、并发与合规指标倒推:数据形态、模型结构、端侧算力与隐私策略一体设计,再沉淀为可复用的场景大脑平台。

技术路线

  1. 1 · 场景锚定

    在教育、心理、视光等垂类明确交互时延、准确率、并发与合规红线,用场景定义「大脑」要优化的目标函数。

  2. 2 · 数据闭环

    规模化终端产生具身闭环数据(感知—行动—反馈—修正),用于抑制幻觉、加速域迁移,而非仅靠互联网语料。

  3. 3 · 模型统一

    VLEA 将 Vision / Language / Emotion / Action 纳入同一套端到端表征与训练目标,避免传统「感知→理解→决策→执行」长链路误差累积。

  4. 4 · 端云一体与双核协同

    TurboCore 承担高频推理、投机解码与隐私敏感特征处理;AuraCore 并行承担情感警觉与应激反射;云端承担重推理与持续蒸馏,整体成本、TTFT 与心理安全指标可写入招标文件。

核心技术

算法逻辑 · 技术底层 · 竞争护城河

场景大脑与场景模型迁移性

核心技术 1:从垂直场景到通用世界模型能力

场景大脑在物理空间中完成感知—决策—闭环;随着场景模型迁移性增强,系统逐步获得更接近通用世界模型的能力。

核心算法:VLEA 多模态融合推理

VLEA(视觉、语言、情感、行动)并非简单串联,而是端到端(End-to-End)联合推理:从「像素感知」映射到「共情决策」,缓解传统 VLA 在复杂人机交互中因缺乏情感反馈而产生的指令幻觉。

将情感从应用层下沉到推理层:捕捉微表情、语调波动,实时调整动作力度与节奏——在医疗康复、智慧教育等场景形成溢价。

场景世界模型与自增强飞轮

在世界模型中引入物理一致性损失(Physics-consistency Loss),经大量物理交互观测,使模型预判重力、形变等结果。

10 万+ 终端产生的是具身闭环反馈数据(Action-Feedback-Correction),而非互联网「死数据」;规模化积累带来跨场景迁移的代差优势。

多场景迁移与自增强演化

1. 场景定义的「第一性原理」

场景不仅是应用场所,更是数据生长的土壤与模型基础。

我们不从大而全的通用模型起步,而先进入课堂、医疗、餐饮、工厂等高频、高价值、高数据密度的垂直场景;场景定义了大脑要学习的物理法则与交互逻辑。

2. 从「场景模型」到「跨场景迁移」

垂直场景的深度渗透会带来技术与数据的溢出效应。

  • 知识解耦:将「通用物理法则」(抓取、平衡、避障)与「垂直语义」(心理量表、工厂规程)解耦。
  • 预训练赋能:单场景(如课堂)10 万级终端数据形成的感知能力,可作为强先验迁移至下一场景(如博物馆讲解)。

场景越多,迁移边际成本越低,最终从「特定场景专家」跃迁至「全场景通用大脑」。

3. 10 万+ 终端的数据壁垒与闭环

闭环反馈数据无法被爬虫或纯合成数据替代。

物理一致性的真实交互数据,是快速迁移、抑制「水土不服」与幻觉的核心资产。

4. 迁移路径优先级

  • 从教育 / 心理向养老 / 家庭迁移:情感感知(Emotion)与安全交互(Action)算法重合度高。
  • 从受控工厂向开放社区迁移:逐步放开物理变量,依托 TurboCore 本地推理保障迁移后实时性。

我们不在每个新场景重复造轮子:通过 VLEA 将垂直场景的成功经验沉淀为通用具身常识;场景边界不断外推时,迁移性呈非线性增长。最终交付「插拔式」具身场景大脑——进入新场景仅需少量样本即可定位痛点并接管任务。随着场景数量与迁移性提升,系统将逐步获得通用世界模型能力。

VLEA World Model

VLEA 世界模型与范式跨越Vision · Language · Emotion · Action 端到端联合推理

本节阐述技术栈:将视觉、语言、情感与行动纳入同一表示空间协同优化,支撑场景大脑在真实物理交互中的感知、理解与闭环执行。公司定位与使命见 首页 · 关于缤果

技术护城河:从 VLA 到 VLEA 的范式跨越

区别于传统的 VLA 模型,缤果科技从第一性原理出发,创新性地将 情感计算(Emotion) 引入底层逻辑。通过视觉、语言、情感与行为决策的深度融合与端到端联合推理,我们赋予机器人从「感知像素」向「认知世界」的跨越——让机器不仅能「看见、听懂」,更能「深度理解、共情沟通、精准行动」。

端到端联合推理Vision · Language · Emotion · Action 全链路对齐

Framework

VLEA 框架:四位一体的世界模型

感知、语言、情感与行动在同一表示空间中协同优化,驱动场景大脑持续进化。

VVision

视觉 · 感知像素

从「看见」到结构化世界

以多模态视觉感知为入口,实现实时像素级场景解析,将物理环境转化为可推理的结构化表征,为上层认知提供高保真、低延迟的感知底座。

LLanguage

语言 · 语义与任务

听懂意图,拆解复杂目标

深层次语义理解与任务拆解:对指令、语境与常识进行联合建模,将自然语言与可执行规划对齐,支撑复杂任务的层次化分解与持续对齐。

EEmotion

情感 · 共情与信任

范式跨越的关键变量

区别于传统 VLA,从第一性原理将情感计算嵌入底层逻辑:多模态情感识别与共鸣表达,实现人机共情沟通,让智能体在真实交互中具备「温度」与可信度。

AAction

行动 · 物理闭环

决策即执行

在物理一致性与安全约束下完成行为决策与精准执行,将模型输出可靠映射为连续控制与操作策略,打通「理解世界」到「改变世界」的最后一公里。

业务成果与科研底蕴

落地实践:目前已在教育、心理健康、智慧工厂等核心领域完成深度部署。数据壁垒:累计接入超过 10 万台 智能终端,沉淀亿级多模态交互数据,闭环反馈(Action-Feedback-Correction)驱动数据飞轮。科研底蕴:拥有超过 100 人 的专业科研团队 MediaLab@UESTC 专注于该领域研发;核心科研团队源自清华大学、电子科技大学、中山大学、北京大学等顶尖学府,拥有 200 余篇学术论文及 100 余项核心专利。

10 万+

智能终端接入

真实场景多模态数据壁垒

200+

学术论文

持续产出前沿成果

100+

核心专利

工程与算法双轮沉淀

情感识别准确率

>95%

响应延迟

<100ms

Token 节省率

50%+

推理加速比

2–3×

Dual-core silicon

双核驱动:冷逻辑与热情感

TurboCore 面向具身智能在物理世界中持续运行所需的「冷逻辑」——高效率、低时延、可审计的推理与 Token 经济学;AuraCore 则承担社会化生存所需的「热情感」与共情通道,使机器在与人共处时具备可解释的情绪反应与安全边界。

在系统结构上,这一组合对应于在硬件与运行时层面对「新皮质(Neocortex)与边缘系统(Limbic System)」协同的类比:一侧擅长序列推理、约束满足与端云协同;一侧专职情绪评估、应激检测与保护性动作触发;两核通过片上互连与统一数据面协同,而非简单把情感当作后处理插件。

特性TurboCore(理智核)AuraCore(共情核)
功能定位逻辑推理、任务拆解、Token 压缩情绪感知、共情反馈、隐私屏障
核心算法Speculative Decoding、KV Cache 优化多模态特征融合、微表情时空分析
交互价值解决「快不快、省不省」解决「懂不懂、暖不暖」
隐私逻辑脱敏特征上传云端原始信号端侧销毁,仅输出标签

核心技术 2

边缘协同推理计算架构与芯片

本地快思考 + 云端慢思考 · 云边端协同

面向端侧「既要云端大模型能力,又要省钱、省流、强隐私」的诉求,明确云—边—端协同的具身智能系统架构。

特征映射(Feature Mapping)确立铁律:数据不出端,特征才上云。单向不可逆 Embedding:本地编码将图像 / 音频映射至高维空间,仅上传脱敏特征;云端仅获语义逻辑,无法反推原始数据,构成合规护城河。

端云交互面临三类瓶颈:

  • 经济成本:高昂 Token 计费使 24/7 持久在线难以承受。
  • 响应延迟:纯云端推理造成交互断层,难以满足毫秒级人机闭环。
  • 隐私与合规:原始数据上云带来的安全与合规风险。

TurboCore 赋能:语义压缩与投机协同

投机采样(Speculative Decoding)芯片级加速

  • 思路:TurboCore 端侧运行轻量 Draft Model(如 Qwen-0.8B)。
  • 逻辑:端侧先「预判」5–10 个 Token,批量提交云端高端模型(如 Claude)并行验证,云端由逐字生成转为批量审核。
  • 收益:推理速度约 2–3×,显著降低首 Token 延迟(TTFT)。

语义预压缩:从像素到特征向量(Embedding)

  • 端侧芯片内完成多模态特征提取,不上传原始像素与长文本。
  • 将本需数千 Token 的描述压缩为高密度特征向量,目标节省 50%+ 云端 Token。

语义隐私屏障:物理隔离的脱敏

  • TurboCore 在本地构建加密计算环境,单向不可逆 Embedding。
  • 云端仅收到语义特征;即便截获亦难以还原隐私,同时提高信息密度。

效果与指标

Token 节省率 50%+:本地投机验证减少上云频次——既是技术领先,也改善毛利结构。

投机采样在具身交互中引入动态接受率(Acceptance Rate)评估:提高本地预测准确率,可将整体推理加速比稳定在约 2–3×。

芯片层面优化

  • KV Cache 高效调度:面向 Transformer 优化内存带宽,使端侧 Draft Model 毫秒级吐字。
  • 低功耗常驻:边缘推理节点 7×24 低功耗运行,作为「本能脑」持续感知环境变化。

Token 效率本质是端侧预判与云端验证的权力再分配。TurboCore 软硬一体方案,使 VLEA 具身大脑跑得更快,也为商业模式在毛利上留出空间。

要点速览

双脑协同 · Speculative Decoding

本地 Draft Model(如 TurboCore 上 Qwen-0.8B)预判 Token,云端 Oracle Model 并行验证;整体推理加速比约 2–3×。

TurboCore · Token 经济学

本地投机采样显著降低上云频率;云端 Token 节省率 50%+,首 Token 延迟 TTFT < 100ms(KV Cache 硬件级优化)。

语义隐私屏障

「数据不出端,特征才上云」:单向不可逆 Embedding,云端仅获语义逻辑、无法反推原始数据,满足政企与医疗合规。

Affective silicon · AuraCore

AuraCore:情感计算架构与芯片

核心技术 · 具身智能的情感神经中枢

情感计算(Emotion)下沉至底层逻辑:通过视觉、语言、情感与行为决策的深度融合与端到端联合推理,我们推动机器人从「感知像素」迈向「认知世界」——不仅「看见、听懂」,更能「深度理解、共情沟通、精准行动」。

TurboCore 侧重具身智能的「理智与生存」——推理效率与物理可运行性;AuraCore 则承担情感感知能力,对应「灵魂与共情」:让每一台机器人拥有观察人类情感的眼睛与心脏。AuraCore 定义物理安全之外的第二维安全指标——心理安全边界(Psychological Safety Buffer)。

功能描述

情感作为第一类传感器

我们将情绪感知与视觉、雷达同等视为底层传感数据。通过独立芯片,将微表情、声学特征与体态语实时转化为标准化的情感张量(Emotion Tensor),为具身大脑提供「社交导航」级输入。

毫秒级的「情感本能」

借助芯片级硬核加速,无需将海量音视频上云即可理解喜怒哀乐。AuraCore 形成「情感反射弧」:在逻辑大脑完成判断前,依对方愤怒或悲伤先行做出语调降频、保持安全距离等具身反应。

构建端侧的「隐私黑盒」

情感感知是隐私最前哨。我们坚持「语义提取、特征销毁」:芯片输出脱敏心理状态标签,而非原始私人影像。对人类情感尊严的保护,是进入学校、医院与家庭等私密场景的前提。

核心技术

多模态情感计算 (Multimodal Emotion AI)

不同于仅识别文字或表情的传统方案,芯片侧集成多维度感测:

  • 视觉微表情识别 · Micro-Expression Analysis

    捕捉 0.2 秒量级的细微面部肌肉变化。

  • 非言语声学特征分析 · Acoustic Prosody

    提取语调、语速、颤音等参数;即便不解语义,也能判断焦虑、兴奋、沮丧等情绪状态。

  • 人体姿态与生命体征感知 · Physiological Mapping

    结合激光雷达或毫米波雷达,感知呼吸频率、体态张力,评估生理压力水平。

端侧「情绪搜索引擎」

在边缘侧完成情绪检索与对齐,直接对接 VLEA:

  • 情感基频提取单元(Emotion FEU)

    在指令集层优化情感特征提取算子,目标情绪反馈延迟在 50ms 以内。

  • 情感语义对齐

    将物理信号转化为标准情感向量(Emotion Embedding),作为 VLEA 世界模型的可直接输入。

  • 标准化接口

    类似蓝牙 / Wi‑Fi 模组,通过 SPI / I2C 等接口向各类本体输出结构化「情绪标签」。

为什么要做成「独立芯片」?

  1. 实时响应(毫秒级反馈)

    情绪交互对实时性要求极高。独立芯片保证:主处理器或云端仍在思考逻辑时,本体已通过身体语言(后退、低头等)完成情感侧第一反应。

  2. 极端隐私(情感不出端)

    情绪数据比文字更敏感。芯片在本地将原始影像 / 声音转为脱敏标签,原始音视频在片内实时销毁;上云仅为「用户当前焦虑度 80%」等标签,而非面孔与声纹。

  3. 降低系统功耗

    独立芯片可作「情感触发器」:平时低功耗值守,仅在剧烈情感波动时唤醒高性能主核。

AuraCore 核心技术细节

01

情感词表标准化

建立面向物理交互的具身情感编码标准,使情绪标签与本体动作、安全策略在工程上可对齐、可审计。

02

存算一体优化

针对情感计算中的时空特征提取(如 3D-CNN、Transformer 注意力路径),在 AuraCore 内设计专用情感算子加速单元;通过存算一体减少多模态数据搬运功耗,使息屏 / 待机时仍保持「情感警觉」。

03

零样本迁移

训练跨人种、跨文化的通用情绪感知基座并固化于硬件,为端侧 Few-shot 微调提供统一先验。

04

情感本能反馈(Affective Reflexes)

建立硬件触发的「情感反射弧」:在极端负面情绪或生理应激信号下,越过复杂云端编排,直接触发本地保护性动作(后退、降音量、柔和灯光等)。学术价值:定义心理安全边界(Psychological Safety Buffer),作为物理安全之外的第二维指标。

05

跨文化的「情感全球通」

针对不同人种与文化下的表情、语调差异,内置元学习(Meta-Learning)推理引擎;芯片无需全量重训,即可通过端侧极少样本(Few-shot)快速适配当地情感表达,支撑具身大脑全球化部署。

Strategy

战略路径:「场景 × 本体 × 大脑」三位一体

公司坚定执行「场景驱动大脑,大脑赋能本体」的自增强飞轮战略。随着场景大脑在不同领域的深度渗透,模型的跨场景迁移性将呈指数级提升;通过海量场景的持续迭代,我们将构建具备全场景理解能力的通用「具身大脑」,实现从垂直智能向通用人工智能(AGI)的跃迁。

演进优先级示例:从教育 / 心理向养老与家庭迁移(情感感知与安全交互高度重合);从受控工厂环境向开放社区逐步放开物理变量,并由 TurboCore 保障端侧实时性。

  1. 1

    流程 1

    场景定义需求

    以真实物理场景作为智能进化的土壤。

  2. 2

    流程 2

    数据培育模型

    垂直场景的深度数据持续喂养场景模型。

  3. 3

    流程 3

    模型驱动本体

    场景模型实时指挥物理实体完成复杂任务。