字节跳动与清华大学联合开源统一多模态框架HuMo，引领AI新纪元

2026-01-09/ 16 次浏览/ 资讯

字节跳动联合清华大学推出开源统一多模态框架HuMo，这一框架旨在支持多种模态的数据融合和处理，包括文本、语音、图像和视频等，HuMo框架具备高度灵活性和可扩展性，能够助力人工智能研究和应用的发展，该框架的开源性质将促进技术共享和创新，推动多模态技术在各行各业的广泛应用，这一合作展示了科技与学术界的紧密合作，对于推动人工智能领域的发展具有重要意义。

字节跳动联合清华大学开源统一多模态框架：humo

字节跳动与清华大学联合开源统一多模态框架HuMo，引领AI新纪元

论文地址: https://www.php.cn/link/5810733635b8629df4a4badaaef78f6c

由字节跳动智能创作团队与清华大学联合推出的 HuMo，是一个统一的 HCVG（Human-Centric Video Generation）框架，致力于推动以人为中心的视频生成技术发展。该框架支持文本、图像和音频三种模态的协同驱动，实现高度可控的人物视频生成。

字节跳动联合清华大学开源统一多模态框架：HuMo

HuMo（全称 Human-Modal）通过构建高质量多模态数据集，并引入创新的渐进式训练机制，首次在统一模型中实现了对多种输入信号的有效融合与精细控制。其生成视频最高可达 720P 分辨率，最长支持 97 帧、25FPS 的输出，在多个子任务上的表现均超越当前专用模型。

该框架的关键技术包括全新的数据处理流程、逐步增强的多模态训练策略，以及可根据输入灵活调整的推理机制。

字节跳动联合清华大学开源统一多模态框架：HuMo

项目地址:
https://www.php.cn/link/09604c68bfa72e9930b00c967e64747e
https://www.php.cn/link/b2a242690f117309099b7a561b605e9e

关键词：git github 字节跳动

<< 上一篇

恐怖游戏女吊PV中的阴间玩意深度解析

下一篇 >>

iPhone 17系列屏幕黑边数据揭秘，标准版采用非四等边设计

网友留言（0 条）

发表评论