전체 글 8

[논문 리뷰] GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling

[논문 리뷰] GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling✨GaussianCube : 3DGS의 3D representation을 diffusion으로 생성✨  Zhang, B., Cheng, Y., Yang, J., Wang, C., Zhao, F., Tang, Y., ... & Guo, B. (2024). GaussianCube: Structuring Gaussian Splatting using Optimal Transport for 3D Generative Modeling. arXiv preprint arXiv:2403.19655.  AbstractGaussianCube는 1) fu..

카테고리 없음 2024.10.30

[논문 리뷰] Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

✨AnimateAnyone : ReferenceNet를 통한 animation의 기원✨ Hu, Li. "Animate anyone: Consistent and controllable image-to-video synthesis for character animation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. [paper]Talking Head Generation 카테고리에 속한 Hallo에 등장하는 ReferenceNet의 기원이다. 또한, 다음 논문 리뷰가 될 Champ 또한 이를 사용하므로, 이번 리뷰까지만 자세하게 다루고 추후에는 링크 참조 형식으로 진행할 예정이다.Abstra..

Pose Guidance 2024.07.18

[논문 리뷰] VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

✨VASA-1: Emotion, eye gaze, face distance가 조절 가능한 real-time THG✨ *이 논문을 MegaPortraits와 엮어 분석하거나 설명한 포스트는 한국 뿐만 아니라 영어권에서도 최초인 것으로 보인다. Xu, Sicheng, et al. "Vasa-1: Lifelike audio-driven talking faces generated in real time." arXiv preprint arXiv:2404.10667 (2024). [paper]🚨 VASA를 이해하기 위해서는 MegaPortraits와 face-vid2vid의 이해가 필수적이다. MegaPortraits가 face-vid2vid를 이어받아 공개된 논문이므로, 논문 리뷰를 읽고 완벽한 이해를 먼저 갖..

[논문 리뷰] MegaPortraits: One-shot Megapixel Neural Head Avatars

✨MegaPortraits : MS가 인정한 3D representation-aided cross-driving reenactment synthesis✨Drobyshev, Nikita, et al. "Megaportraits: One-shot megapixel neural head avatars." Proceedings of the 30th ACM International Conference on Multimedia. 2022. [paper] 🚨 최근 talking head generation에서 정점을 찍은 VASA에서 활용하고 있으므로 must-read라고 생각한다. 또다른 reenactment model인 face-vid2vid는 해당 모델의 핵심 아이디어의 기원이고, VASA에서도 활용되며, 또..

Face Reenactment 2024.07.11

[논문 리뷰] Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation

✨Hallo : Hierarchical audio-driven visual synthesis module이 적용된 diffusion-based portrait image animation✨ Xu, Mingwang, et al. "Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation." arXiv preprint arXiv:2406.08801 (2024). [paper]AbstractHierarchical audio-driven visual synthesis module을 통해서 lip, expression 그리고 pose motion의 sync 정확도를 향상시킨다. Temporal alignment를 진행하고, vis..

[논문 리뷰] MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

✨MeshAnyting : 어떠한 3D shape information을 받더라도 Artist-Created Meshes(AMs)로 만들어주는 autoregressive transformer.✨ Chen, Yiwen, et al. "MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers." arXiv preprint arXiv:2406.10163 (2024). [paper]  Abstract3D 산업에서 활용되기 위해서는, 3D assets는 mesh의 형태로 변환되어야만 한다. 그런데 기존의 mesh extraction들은 dense faces에 의존하고 기하학적 특성을 무시하기 때문에, 효율성이 떨어져서 Artist-..

Mesh Generation 2024.07.07

[논문 리뷰] MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

✨MimicMotion : 주어진 input image가 driving video의 motion을 따라하도록 변환된 video로 만들어준다는 의미이다.✨ Zhang, Yuang, et al. "MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance." arXiv preprint arXiv:2406.19680 (2024) [paper] Abstract 논문 제목에 나와있듯 고품질과 temporal smoothness를 보장하는 confidence-aware pose guidance라는 것을 제시하고, 이를 활용하여 regional loss amplification이라는 것을 한다. 마지막으로, lo..

Pose Guidance 2024.07.07

이 블로그를 만든 이유

* 논문 리뷰 페이지에서 넘어오셨다면, '앞으로 이 블로그는,' 챕터만 확인해주시면 되겠습니다 ◡̈ 앞으로 이 블로그는, 주로 computer vision 내에서 다양한 분야의 논문을 압축적으로 기록하여 포스팅하게 될 것 같습니다. 논문 단위로 포스트가 작성되지만, 논문의 chapter를 따르지는 않을 예정입니다. 예를 들어, Experiment 부분은 생략하고, Introduction이나 Related Work는 압축적으로 요약하는 방식을 구상하고 있습니다. 🚨 특히 introduction 및 related work는, 각 카테고리별 첫 번째 논문에서만 압축 없이 다룹니다. 대신, Method 부분의 핵심 아이디어나 architecture 분석을 주로(대부분의 비중으로) 담을 것입니다. 또한, 다양한..

카테고리 없음 2024.01.20