[具身智能-644]:多模态模型 - 视觉语言模型 - 视频帧是二维像素能量时间片,单帧辨几何、跨帧识运动;语音帧是一维声波能量时间片,单帧判口腔形态、跨帧识发声变化。
摄像头的视频帧是硬件原生输出的「带二维空间像素点图像的幅度的时间片」每个数值是像素点在帧周期内一段时间能量的累加同一帧的不同点用于识别几何形状不同帧之间用于识别几何形状的运动。麦克风的语音帧是人为切割的 「带一维空间声波点语音的幅度的时间片」每个数值是震动点在采样周期一段时间能量的累加同一帧的不同点用于识别口腔形态不同帧之间用于识别口腔形态的运动。一、摄像头视频帧完整解析1. 核心定义视频帧是图像传感器硬件原生输出承载二维空间像素幅度的时间切片。2. 像素数值物理本质每个像素值是感光单元在一帧曝光周期内对入射光光能累积积分的结果把光的强弱转化为数字幅值。3. 单帧内部作用同一帧中不同像素点在二维平面形成亮度、色彩、纹理空间分布机器据此识别物体几何轮廓、结构、空间位置与形态。4. 多帧之间作用连续不同视频帧按时间序列排布像素分布的位置变化用来识别物体位移、姿态改变、整体几何运动与行为动作。二、麦克风语音帧完整解析1. 核心定义语音帧是对连续声波时域信号人为算法切割承载一维声波振动幅度的时间切片。2. 采样点数值物理本质每个语音采样值是麦克风在单个采样周期内对空气振动声压能量累积采样的结果把振动强弱转化为数字幅值。3. 单帧内部作用同一语音帧内多个时域采样点构成短时波形与频谱特征对应人声声带振动、口腔声道共鸣形态用于表征发音基础构型。4. 多帧之间作用连续语音帧随时间依次变化波形与频谱的动态演变用来识别口腔、舌头、声带的形态运动进而解析语音语义。三、二者底层对称逻辑都是能量累加数字化像素累加光能、采样点累加声能都是时间片结构以固定时长作为基础处理单元统一范式单帧看静态形态跨帧看动态运动区别视频是二维空间 时间硬件原生帧语音是一维时域 时间人工切割帧。