조인트 추출 번역(한국어 원본)

본 논문에서는 카메라에서 입력되는 영상에서 객체의 특징 자동 추출하고 모바일 기기로 전송하여 인체의 움직임을 재현하는 방법을 제안한다. 제안방법은 단일카메라로 RGB 컬러로 입력되는 영상을 색상, 채도, 명암의 영상으로 변환한 후 차 영상기법을 이용하여 인체의 실루엣을 추출한다. 추출된 실루엣의 코너점과 모델링 정보를 이용하여 조인트를 자동 검출하여 객체의 각 연결점의 위치정보로 사용한다. 또한 추출된 조인트를 중심으로 블록매칭 알고리즘을 적용하여 특징의 위치정보를 추적하고 모바일기기로 정보를 전송한다. 모바일 기기에서는 전송된 조인트 정보를 이용하여 인체의 움직임을 재현한다. 제안방법을 실험동영상에 적용한 결과 인체의 실루엣과 조인트를 자동 검출하며 추출된 조인트로 인체의 매핑이 효율적으로 이루어졌다. 또한 조인트의 추적이 매핑된 인체에 반영되어 인체의 움직임도 적절히 표현되었다.
최근 네트워크 기술 및 장비의 발전을 기반으로 카메라를 이용한 감시시스템의 도입이 활발히 추진되고 있고 그에 따른 연구 또한 활발히 진행되고 있다. 현재 감시카메라는 상용화된 CCTV의 경우 실시간 영상을 전송 및 저장하며 대부분 센서를 이용한 간접적인 정보를 사용하거나 센서장치를 사용한다. 센서장치를 사용할 경우 모니터링시 유지 보수의 문제가 대두되며 간접적인 정보를 바탕으로 하기 있기 때문에 영상과 같이 관리대상자의 직접적인 영상을 사용하는 방법에 비해 효율성이 떨어지며, 응급상황 발생에 신속한 대응에 어려움 있다. 독거노인이나, 어린이 등을 대상으로 카메라를 이용한 감시시스템의 경우 실시간 처리와 관리가 필요하며 전송되는 영상 데이터의 양이 방대하므로 영상데이터에서 객체를 추출하고 추적하는 연구뿐 아니라 전송 데이터의 감축에 관한 연구도 진행되고 있다.
영상을 이용한 감시시스템은 인체의 추적과 모델링을 기반으로하며 기존의 인체의 추적과 모델링을 위한 방법으로는 색상을 이용하여 영상을 분할한 후 윤곽선을 분석하여 비슷한 색상으로 연결된 블랍들의 집합으로 인체를 표현하고 카메라로 추적하는 방법, 다수의 카메라에서 획득된 영상에 템플릿 매칭을 이용하는 방법, 인체의 특정 부위에 센서나 마커를 부착하여 이를 응용하여 인체의 실루엣이나 윤곽선 및 다른 특징들을 추출하는 방법 등이 있다. 그러나 이러한 방법들은 머리와 손만을 피부색으로 제한하거나 인체의 모델과 추적이 머리와 손 발등으로 제한되며 마커 등의 고가의 장비가 필요하며 또한 감시카메라 등의 응용분야에서는 마커나 센서를 사용할 수 없다. 따라서 마커나 센서 등의 보조적 장비가 없이 인체의 특징을 표현할 방법이 필요하다.
인체의 추적과 모델링을 위해 추출되는 특징으로는 인체의 실루엣, 윤곽선 정보, 특정 인체 부위 및 연결정보, 조인트 등이 있다. 이 특징 중 조인트는 인체의 각 부위를 연결하는 위치점으로 조인트의 위치를 이용하여 인체의 각 부분을 추정하고 그로 인하여 객체를 재구성하는 것과 추출된 조인트의 움직임을 추적하여 객체를 추적하는 것도 가능하다. 따라서 인체의 움직임을 표현할 모바일 기기에 감시대상자의 사진이나 아바타 등을 미리 저장하였다가 조인트 정보를 이용하여 움직임을 표현할 수 있다. 또한 모바일 기기의 발달로 감시시스템의 모니터링을 PC 뿐 아니라 관리 대상의 보호자의 모바일 기기로 전송하는 다양한 시스템도선보이고 있다.
본 논문에서는 실시간 수집된 정보를 바탕으로 영상데이터를 분석하고 보호자 및 응급센터 관계자의 핸드폰, PDA, 네비게이션 시스템 등 모바일 디바이스에 관리대상자의 상태를 전송하고 확인할 수 있는 방법을 제안한다. 제안방법은 카메라의 입력영상의 조인트를 자동추출하고 조인트를 추적하여 그 정보를 모바일기기로 전송하고 전송된 조인트 정보를 이용하여 감시대상자를 재현하는 방법을 제안한다. 기존 시스템은 입력되는 영상 데이터의 객체를 처리하여 실제 영상을 압축하여 전송하고 실제 영상을 그대로 표현한다. 그러나 모바일 기기 등에 전체 영상 데이터를 전송하고 표현하는 것은 전송데이터의 방대함, 데이터 처리속도의 지연 등이 발생할 수 있다. 본 논문에서 특징으로 사용하는 조인트 정보는 인체의 연결부분의 위치정보로 텍스트 정보이다. 따라서 영상데이터에 비해 전송 데이터량이 현저히 감소한다.

조인트 추출 번역(영어 번역본)

This research proposes a method of simulating the movements of the human body by automatically extracting the characteristics of an object from a camera and sending them to mobile devices. In this method, a RGB color video from a camera was converted into hue, saturation, and contrast images for extracting the silhouettes of the human body using digital subtraction of the images. Using the corner points and modeling information from the extracted silhouettes, joints are automatically detected and used as locations for each connection points of the object. Also, block-matching algorithms were used around extracted joints to track the location of the characteristics, which are sent to mobile devices. On the mobile devices, body movements are simulated using the received information on joints. The results showed that the method automatically detects silhouettes and joints and effectively maps the human body using the extracted joints. Also, the tracking of the joints were reflected in the mapped body, allowing for appropriate expression of the movements.
Based on recent development of network technology and devices, surveillance systems using cameras are being introduced widely, and the research on the technology is active. Existing CCTVs save and send real-time videos and use sensor devices or receive indirect information from sensors. If sensor devices are used, maintenance during monitoring is an issue. Also, because indirect information is used, it is less efficient than direct video with a supervisor and quick response in case of emergency is difficult. Surveillance systems for the elders who live alone and children need real time supervision, but the amount of the video data is enormous. Therefore, research on reducing the amount of data transmitted, as well as research on extracting and tracking objects from videos, is in progress.
Surveillance systems using videos are based on tracking and modeling of human bodies, which can be done in many ways such as using hues to divide video images and analyze contours to express and track the human body as a mass of blobs of similar colors, using template-matching on videos acquired from many cameras, and attaching sensors or markers on bodies to extract characteristics, such as the silhouettes and contours. However, these methods limit head and hands to skin colors and are limited to modeling and tracking heads, hands, and top of the feet. Also, they require expensive equipment such as markers, but markers and sensors cannot be used in applied fields such as surveillance cameras. Therefore, a method that expresses a body’s characteristics without the help of markers and sensors is needed.
The characteristics that are extracted for tracking and modeling of the body include silhouette, contours, specific body parts and their connection information, and joints. Among them, joints act as connecting points of the body parts, so it is possible to use the location of the joints to estimate each body part and restructure the object, as well as to track the movement of the extracted joints and the object. Therefore, it is possible to save the image or avatar of the surveillance object on mobile devices and express the movements using the information on joints. Also, with the development of mobile devices, surveillance system’s monitoring can be sent to the guardian’s mobile devices as well as PC.
In this research, we propose a method that can analyze video data based on information collected real time and send it to the guardians’ or emergency centers’ mobile devices, such as cell phones, PDAs, and navigation systems. The method automatically extracts joints from the videos, tracks them, sends the information to mobile devices, and simulates the object under surveillance using the information on joints. Existing systems process the object data, compress it, and show the real video as it is. However, sending the whole video and expressing it on mobile devices can cause delays in data processing due to the size of the data. The data on joints that this research paper uses is text data on the location of joints of the human body. Therefore, this method can significantly decrease the amount of data.


