아이언맨3에서는 토니 스타크가 홀로그램을 활용하여 사건현장을 재구성하는 모습이 나온다. 이 기술의 핵심은 두 가지라고 볼 수 있다. 첫 번째는 사건 현장을 촬영한 여러 이미지를 한데 모아, 3D 형상으로 보여주는 것. 그리고 두 번째는 대기 중에 홀로그램을 띄우는 것이다. 두 번째 기술은 현재로서는 불가능하지만 (이산화탄소 등 특수 기체를 활용하면 가능하다) 첫 번째는 상당한 진전이 있다.
여러 장의 2D 이미지를 3D로 변환하는 일은 사람에게 너무나도 간단한 일이다. 단순히 두 개의 눈만으로도 사람은 멀리 떨어진 물체의 거리를 대략적으로 판별해낼 수 있고, 이를 통해 머리 속에서 3D 형상을 만들어낸다. 잘 보이지 않는 부분이 있더라도, 어물쩡 잘 보이는 부분과 비슷하게 그려넣으면 그럴싸한 형상이 된다.
하지만 컴퓨터로 이런 일을 수행하기가 참 까다로웠는데, 이유는 '대략적으로', '어물쩡' 업무를 수행하지 못하기 때문이다. 2023년 CVPR에서 발표된 이 논문은 두 가지 기존 연구를 조합하여 이 문제를 해결했다. 첫 번째 기존 연구는 NeRF라고 부르는, 3D 재구성 알고리즘이고, 두 번째 기존 연구는 generative AI의 대표격인 diffusion model이다. Diffusion model은 지금까지 2D 이미지를 대략적으로 만들어내는 역할을 수행해왔는데, 이를 활용하여 보이지 않는 영역을 어물쩡 그려내고, 이를 다시 NeRF에 투입함으로써 더 정확한 3D 형상을 만들어낸 것이다.
그렇다면 "대략적"인 접근을 어떻게 수행하는 것일까? NeRF를 비롯한 최신 트렌드에서는 꽤 직관적인 방법을 사용한다. 우선 입력 데이터로 사용되는 몇 장의 사진이 있을 것이고, 학습을 통해 만들어낸 3D 형상이 있을 것이다. 그러면 그 형상에서 실제 사진이 찍힌 위치를 찾아, 같은 위치에서 2D 이미지로 변환한 것이다. 그러면 두 개를 비교할 수 있다: 1) 실제 형상을 특정각도에서 바라본 사진, 2) 3D 모델을 특정각도에서 바라본 사진. 난 단순히 사람에게 3D 형상을 보여주면서 "이게 그럴듯해 안그럴듯해?" 하고 물어보는 것을 상상했더랬다.
2023년 발표된 논문인데다가, 딥러닝의 발전속도는 너무나도 빠르기에 현재는 아무래도 사진 한 장을 활용해서 3D 형상으로 바꾸는 연구들이 많이 발표되었을 것이다. 하지만 내가 관심있는 것은 3D 재구성을 통해 인체를 나타내는 것인데, 현재 2D로만 진행되고 있는 인체 모델링이 부정확하기 짝이 없기 때문이다. 인체 골격이 복잡하기에 정확한 관절 가동범위 계산에는 무리가 있을 수 있겠지만, 이 역시 머지 않은 미래에 가능할 것으로 기대한다.
출처:ReconFusion
ReconFusion: 3D Reconstruction with Diffusion Priors
3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming cap
reconfusion.github.io
[이런 논문] 한 장으로 이해하는 NeRF 구조 (6) | 2024.10.09 |
---|---|
[이런 논문] 자세에 점수를 매겨주는 딥러닝 (0) | 2024.08.29 |