微软研究院推出基于Transformer的神经渲染模型RenderFormer
微软研究院推出了一项基于Transformer的神经渲染模型,名为RenderFormer,该模型采用深度学习技术,能够自动从三维场景中生成高质量的图像,从而极大地提高了渲染效率和图像质量,RenderFormer的发布将促进计算机图形学领域的发展,为游戏开发、电影制作和虚拟现实等应用提供更优秀的渲染技术。
微软研究院近期推出了renderformer,这是一种全新的纯机器学习神经网络架构,致力于用ai模型彻底取代传统图形渲染中的计算流程,实现无需依赖光栅化或光线追踪技术的全功能3d渲染。



RenderFormer的核心结构包含以下关键设计:
- 双分支Transformer架构:系统分为两个阶段——视角无关(View-Independent)与视角相关(View-Dependent)。前者利用自注意力机制提取如阴影、漫反射等不随观察角度变化的全局光照特征;后者则通过交叉注意力机制处理可见性、镜面反射等依赖视角的视觉效果。
- 基于3D几何的相对位置编码:引入改进版旋转位置编码(RoPE),直接依据三角形在三维空间中的实际坐标进行编码,而非依赖序列顺序,从而确保模型对场景平移具有不变性。

据项目介绍,RenderFormer是首个成功验证神经网络可完整学习传统图形渲染管线的模型。它能够处理任意复杂度的3D场景,并模拟多种全局光照现象。该模型以“三角形令牌”(triangle tokens)表示场景几何结构,包含位置、法线和材质信息,同时结合“光线束令牌”(ray bundle tokens)来建模观测视角,最终实现端到端的图像生成。此项研究已被SIGGRAPH 2025录用,并已公开代码与模型。
https://www.php.cn/link/0c71f0a8c36a3212e6569e6186febd41
网友留言(0 条)