计图开源:一致角色生成框架Photomaker和StoryDiffusion
https://github.com/Nankai-JittorCV/nk-diffusion
本文将对这两个工作相关内容进行简要介绍。
Part1
问题和背景
图1 一致角色生成示例
角色的一致性根据不同的任务需求而体现于保证生成的角色在人脸、衣着和姿态等方面的一致性。该技术预期可用于影视动画、游戏开发等领域,为创作者提供高质量和高可控性的角色图像生成方案。通过Prompt和LORA的控制,模型还可以生成不同风格和种类的角色,具有高度的可定制性和灵活性。
Part2
PhotoMaker
图 2 (a)PhotoMaker方法的结构, (b)面向ID的数据构建流水线
高效率:与需要大量微调步骤的其他方法相比,PhotoMaker可以在接收到四个ID图像后在大约10秒内生成一张定制化的人像照片,速度提升显著。
高质量与多样性:PhotoMaker生成的图像质量高,且在保持ID信息的同时,能够展现出丰富的场景和控制能力。
强大的控制性:PhotoMaker可以改变输入人物图像的属性(如配饰和表情),生成与输入ID完全不同视角的人类照片,甚至修改输入ID的性别和年龄。
为了支持PhotoMaker的训练,PhotoMaker还提出了一个面向ID的数据构建管道,以构建按ID分类的训练数据集。PhotoMaker在实验中展现了比其他方法更好的ID保持能力,同时提供了显著的速度提升、高质量的生成结果、强大的泛化能力以及广泛的应用范围。
目前,PhotoMaker已经开源Jittor版本代码并经过完整测试,效果和Pytorch版本一致。NK-Diffusion仓库中“example/photomaker”路径下提供了包括配置环境、代码运行等非常详细的教程,展示了如何在Jittor框架下运行PhotoMaker。
Part3
StoryDiffusion
图3 StoryDiffusion生成的漫画效果展示
目前,StoryDiffusion已经开源Jittor版本代码,代码已经经过完整测试,实际效果和Pytorch 版本一致。NK-Diffusion 仓库中“example/storydiffusion”路径下提供了非常详细的教程,展示了如何在Jittor框架下运行StoryDiffusion。
NK-JittorCV是由南开大学媒体计算实验室主导并维护的Jittor代码仓库,聚焦计算机视觉领域,围绕国产的Jittor框架为优秀的计算机视觉项目提供支持,服务Jittor社区,丰富生态内容。欢迎各位计算机视觉领域的Jittor使用者关注Github仓库“NK-JittorCV”,共同开发基于Jittor的开源视觉项目。
Li, Z., Cao, M., Wang, X., Qi, Z., Cheng, M. M., & Shan, Y., Photomaker: Customizing realistic human photos via stacked id embedding, CVPR, 2024, 8640-8650.
Zhou, Y., Zhou, D., Cheng, M. M., Feng, J., & Hou, Q. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434, 2024.
Shi-Min Hu, Dun Liang, Guo-Ye Yang, Guo-Wei Yang, and Wen-Yang Zhou, Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Science, 2020, 63(12), 222103.
3. 三维高斯泼溅进展综述 | CVMJ Spotlight
4. CVMJ获最新期刊影响因子17.3,计算机学科软件工程类别排名第一
5. 计图助力非十科技发布AI代码助手,代码大模型速度精度超越Copilot