회사에 우여곡절이 많아서 이번 달은 지금까지 포스팅을 하지 못했습니다. 잠깐 정신을 차려보니 벌써 10월도 며칠 남지 않았습니다. 최소한 한 달에 한 번 정도는 포스팅을 해야 겠다는 다짐을 지키기 위해 급하게 포스팅합니다. 이번 글은 부담없이 읽을 수 있는 화자 추적 카메라에 관한 이야기입니다.
시작하며
이번 주에 시스코 홈페이지에 새로운 카메라로 소개되었습니다. 화자 추적 카메라인 Cisco TelePresence SpeakerTrack 60 Camera 입니다. SpeakerTrack 60은 아래그림과 같이 두 대의 카메라로 회의실내에 있는 화자를 인식하여 자동으로 화면에 표출해 주는 카메라입니다.
아래 그림처럼 중대규모 회의실에서 영상회의를 진행할 때 전체 회의실 전경을 카메라로 찍습니다. 관리자가 화자를 찾아서 카메라로 줌인하는 작업을 하기도 하지만, 손이 많이 가므로 실제 사람이 하기는 어렵습니다.
오래전 부터 화자 추적 카메라에 대한 요구가 많았지만 실제 회의에서 사용하기에는 성능이나 기능의 완성도가 떨어져 실제 쓰임새는 많지 않았습니다. 그래서 화자 추적을 위해 A/V 시스템을 이용하는 방법이 업계에서 일반적으로 사용됩니다.
A/V 시스템을 이용한 화자 추적
화자 추적을 위한 전통적인 방법은 아래 그림과 같이 A/V 시스템을 이용하는 것입니다. 기술적으로는 마이크및 마이크 컨트롤러와 연결하여 발언자가 마이크를 활성화하는 방식으로 사용합니다. 즉, 하나의 마이크가 활성화되면 다른 마이크는 비활성화되는 구조로 지향성 마이크를 이용합니다. 그럼 카메라는 어떻게 화자를 추적할까요?
상하좌우 줌이 가능한 PTZ 카메라의 프리셋 기능을 이용하여 각 자리마다 사전에 카메라의 방향과 줌인 각도를 설정해 놓습니다. 마이크가 활성화되는 순간 카메라에 프리셋 번호를 보내어 화자의 모습을 화면에 담는 구조입니다. 가장 확실한 화자 추적이 가능하지만, 발표하시는 분들이 마이크를 활성화하지 않고 설전이 벌어지면 답이 없기는 합니다.
A/V 시스템을 이용하게 되면, 마이크, 마이컨트롤러, 믹서, 카메라 컨트롤러 등이 필요하게 되고, 고객의 비용부담이 증가합니다. 주로 대회의실이나 임원회의실에 도입되었습니다. 현존하는 가장 확실한 화자 추적하는 방법이나 구축 비용이 비싼 것이 단점입니다.
화자 추적 카메라의 등장
영상회의 시스템 제조사들은 화자 추적 카메라에 대한 요구를 수용하여 제품을 개발하였습니다. 대표적인 제품으로는 폴리콤의 Polycom EagleEye Director 입니다. 처음 세상에 나왔을 때는 생각보다 잘 동작하지 않아서 문제가 되기도 했었지만, 현재 EagleEye 카메라가 3세대까지 나오면서 많이 개량되었습니다.
화자 추적 카메라는 기본적으로 상하좌우 줌인 아웃이 가능한 PTZ 카메라 두대를 이용합니다. 두 대가 화자를 추적하기 위해 6-7 이상의 마이크로폰을 이용합니다. 기본적으로 음성인식을 기반으로 화자의 위치를 파악하고, 얼굴과 사람의 모습을 인식하여 줌인을 합니다.
화자 추적 카메라의 동작 방식은 단순하지만, 사람들이 불만없이 쓸 정도까지 발전하는 데 시간이 많이 걸렸습니다. 이 카메라의 목표는 중소규모 회의실에서 사용자들이 카메라 조작을 하지 않고도 편리하게 사용하는 것입니다.
시스코 화자추적카메라 특징
새로 출시된 시스코 화자 추적 카메라인 SperakerTrack 60의 소소한 기능 및 동작 방식에 대해 간단히 살펴보겠습니다.
- Direct Switching
화자를 인식한 후에 다음 화자에게 전환 할 때 현재 화면을 가진 카메라가 직접 스위칭합니다. - Dynamic Overview
회의의 처음과 회의 중간 말이 없을 때는 회의실내의 모든 사람들이 보이도록 전체 회의실 전경을 동적으로 표출합니다. 사람이 많을 떄와 적을 때에 따라 다양한 회의실 전경이 나타납니다. - Intelligent behavior
화자를 추적하여 빠르게 화면 전환만을 한다면, 화면 전환이 많을 경우에 사용자들은 불편함을 느낍니다. 회의실의 상황에 따라 적당하게 움직여야 합니다. 옆사람과 대화를 하는 경우에는 Direct Switching을 할 것이 아니라 적당히 줌 아웃하여 두 사람이 화면에 표출되도록 하는 것이 효과적입니다. 또한, 마주 앉은 상대방과 짧게 이야기를 주고 받는 상황에서는 차라리 회의실 전경을 보여 주는 것이 낫습니다. 즉, 화면 전환이 최소화 되거나 적당해야 합니다.
시스코 대 폴리콤 화자 추적 카메라
화적 추적 카메라 부분에 있어서 시스코는 폴리콤의 후발주자입니다. 우선 화자 추적 카메라가 갖추어야 할 기본 기능은 비슷할 것이고, 차이가 있는 부분 몇 가지만 짚어보겠습니다.
- 영상품질
시스코가 늦게 출시한 제품이라 가장 최근의 이미지 프로세싱 기술을 적용하여 1080p@60fps까지 지원하지만, 폴리콤은 1080p@30fps까지만을 지원합니다. 일반적으로는 1080p@30fps를 사용하지만, 1080p@60fps를 사용해야 하는 환경에서는 시스코가 효과적입니다. - 회의실 전경 화면
시스코 SpeakerTrack 60은 사람을 인식하여 회의에 참가한 사람의 수에 따라 자동으로 회의실 전경화면이 설정되는 Dynamic Overview 기능을 지원하지만, 폴리콤은 사전 설정된 회의실 전경화면만을 표시하므로 참가자의 수에 따라 동적으로 만들어지지 않습니다. - 화면 전환 방식 차이
시스코는 화면 전환을 최소화하기 위해 화자을 추적하다가 다음 화자로 전환될 때 기존 추적중인 카메라가 다음 화자로 이동합니다. 폴리콤은 두 명의 화자가 있을 경우에 두 대의 카메라가 각자를 찍고 있다가 화면을 전환시킵니다. 이 부분은 사용자 경험에 의해 결정될 수 있을 것입니다. 개인적으로는 스위칭을 최소화하는 것이 나을 듯합니다.
마치며
화자 추적 카메라가 기존 A/V 시스템을 이용한 화자 추적 시스템 시장을 잠식하지는 않을 것입니다. 화적 추적 카메라는 중소규모 회의실에 적합하며, 대형 회의실은 여전히 A/V 시스템을 이요한 화자 추적 시스템을 사용할 것입니다.
시스코의 홈페이지에 공개된 SpeakerTrack 60은 내년 1월에 출시된다고 합니다.
라인하트 (CCIEV #18487) ----------------------------------------------------------
ucwana@gmail.com (라인하트의 구글 이메일)
http://twitter.com/ucwana (라인하트의 트위터 )
http://twitter.com/nexpertnet (넥스퍼트 블로그의 트위터, 최신 업데이트 정보 및 공지 사항)
http://groups.google.com/group/cciev (시스코 UC를 공부하는 사람들이 모인 구글 구룹스)
http://groups.google.com/group/ucforum (벤더에 상관없이 UC를 공부하는 사람들이 모인 구글 구룹스)
정리하고 보니 나도 디지털 네이티브 ___________________________________________________________