매치무브(MatchMove)의 세계

영상처리 2013. 9. 11. 21:28

매치무브(MatchMove)에 대해 아무것도 모르면서 이런 글을 쓴다는 것 자체가 어불성설이겠지만, 그래도 영상처리, 컴퓨터 비전을 하는 사람으로서 매치무브(MatchMove)가 무엇인지 개인적 호기심이 발동하여 여기저기 인터넷을 뒤져가며 글을 적게 되었습니다.


아무래도 VFX 쪽에 대해서는 전혀 모르는 상태에서 영상처리, 컴퓨터 비전 입장에서만 쓴 글이기 때문에 조금씩 틀리거나 부족한 부분이 있을 수 있습니다. 



매치무브(MatchMove)


매치무브(MatchMove)란 영화제작 과정 중 3D VFX(Visual FX, Visual effects, 시각 효과) 파이프라인(pipeline)에서 가장 중요한 작업 단계중 하나로서, 영화 씬이나 비디오로부터 이 장면을 찍은 카메라의 위치(궤적)를 복원, 추적해 내는 일을 말합니다.


그리고 매치무브(MatchMove) 작업을 하는 사람들을 매치무브 아티스트 또는 트레킹(tracking) 아티스트라고 부릅니다.


어쩌면 이 아티스트라는 호칭 때문에 더 호기심을 느낀건지도 모르겠습니다. 사실 공학쪽은 아무리 뛰어나도 아티스트라고는 하지 않기 때문에 막연한 동경 같은 것인지도 모르겠습니다.


<유투브에서 찾은 MatchMove 동영상>


VFX는 현대 영화에서 빼놓을 수 없는 요소이며 해리포터, 라이프 오브 파이, 엑스맨, 도둑들, 국가대표 등 대부분의 영화에 3D VFX가 들어갑니다.


VFX는 결국 실사 영상에 실제로는 없는 가상의 캐릭터, 사물, 또는 배경을 삽입하여 마치 실사 영상과 동일한 영상물을 창조해 내는 것이라 볼 수 있으며, 매치무브(Matchmove)-모델링(Modeling)-텍스처(Texture)-애니메이션(Animation)-크리처(Creature)-라이팅(Lighting)-렌더링(Rendering)-컴포지팅(Compositing)-VFX편집 등의 일련의 파이프라인을 거쳐 작업이 진행된다고 합니다.


이러한 실사 영상에 가상의 모델이 자연스럽게 녹아들도록 합성(composite)하기 위해서는 먼저 실사 영상을 촬영했던 카메라를 3차원 세계에서 다시 그대로 창조해 내야 하는데 이러한 작업이 매치무브(MatchMove)입니다.


즉, 매치무브는 일련의 실사 영상으로부터 촬영당시 사용된 카메라의 3D 시점, 줌, 내부 파라미터, 왜곡 등 카메라에 대한 모든 것을 복원, 추적해 내는 작업이라고 볼 수 있습니다.


실제로 매치무브 아티스트들은 마야라이브, 매치무버, PFTrack, 3D 이퀄라이저, boujou 등의 다양한 3D 소프트웨어 툴들을 이용하여 이러한 복원, 추적 작업을 해낸다고 합니다.



매치무브(MatchMove) & 3D 비전 기술



비디오로부터 3D 카메라를 복원해내기 위한 가장 기본적인 단계는 연속된 이미지들 사이의 2D 매칭을 통한 포인트 tracking 입니다.


이론상으로, 동일한(또는 overlap되는) 장면에 대한 서로 다른 두 시점에서의 영상이 있고 이 두 이미지 사이의 매칭 쌍들을 알면 카메라와 매칭 점들 사이의 3D geometry 관계를 복원할 수 있습니다.


여기서 3D 관계를 복원한다는 의미는 두 장의 매칭되는 2D 이미지로부터 원래의 3D 공간을 재구성할 수 있으며 또한 복원된 3D 공간에서의 카메라의 3D 시점(3차원 위치 및 방향)을 알아낼 수 있다는 의미입니다 (단, 복원된 공간의 스케일은 알지 못합니다). 이와 같이 비전에서 매칭되는 두 영상 사이의 기하 관계를 다루는 것을 epipolar geometry라고 하는데, 이에 대한 간략한 소개는 http://darkpgmr.tistory.com/83 글을 참조하시기 바랍니다.


전통적으로 컴퓨터 비전 분야에서는 비디오 영상으로부터 3D 공간 및 카메라 시점을 복원하는 연구는 mono SLAM (여기서 mono의 의미는 단일 카메라라는 의미임)을 통해 이루어져 왔는데, 영국 임페리얼 칼리지의 Andrew Davison 이 이 분야의 대표적인 연구자입니다 (홈페이지: http://www.doc.ic.ac.uk/~ajd/, 논문: "MonoSLAM: Real-Time Single Camera SLAM", PAMI 2007).


<그림> mono SLAM


또한 영국 옥스포드 대학의 Active Vision Group 에서는 2007년도에 이 분야의 프레임을 바꿀 수 있는 PTAM (Parallel Tracking And Mapping) 이라는 기술을 발표하였는데, PTAM이 나온 뒤로 기존의 Visual SLAM(Simultaneous Localization And Mapping)에 대한 연구 흐름이 크게 바뀌게 되었습니다.


PTAM을 이용하면 손으로 들고 찍은 단일 카메라 영상으로부터 3D 공간이 구축되면서 상대적인 카메라의 3D 시점이 복원되며, 매끄러운 증강현실(Augmented Reality)이 가능할 정도의 성능을 자랑합니다 (PTAM에 대한 내용은 나중에 기회가 되면 별도로 포스팅할 예정입니다) => PTAM(Parallel Tracking and Mapping)과 PTAMM



<PTAM 데모 동영상>


위 유투브 동영상을 보면, 컴퓨터 비전 분야에서의 PTAM 기술이 결국 VFX에서 매치무브(MatchMove)를 통해 하고자 하는 것과 거의 유사함을 알 수 있을 것입니다.


이런 관점에서 보면 매치무브에 사용되는 상용 3D 소프트웨어 툴들도 결국 기본적으로는 컴퓨터 비전 그룹에서 하는 visual tracking 기술, 3D mapping, structure from motion 기술 등을 기반으로 함을 알 수 있습니다.


마지막으로 공학쪽에서의 역할은 그러한 소프트웨어를 잘 만드는 것일 터인데, 그러한 소프트웨어를 활용하는 매치무브 아티스트에게 있는 공학 이상의 것은 어떤 것일까에 대한 호기심은 여전히 남습니다.


또한 3D 비전을 전공한 사람이 매치무브 아티스트로서의 길을 가는게 가능한지에 대한 것도 궁금증으로 남습니다.


☞ 예전에 한 현직 매치무브 아티스트분으로부터 이메일(그냥 블로그 잘 보고 있다는 간단한 인사말 정도의 내용)을 받은 적이 있었는데, 그 뒤로 죽 관심을 가지고 있다가 문득 생각이 나서 관련 글을 작성해 보았습니다.


by 다크 프로그래머