새하얀 화면을 바라보는 아이와 4족 보행 로봇 ’스팟’의 모습 새하얀 화면을 바라보는 아이와 4족 보행 로봇 ’스팟’의 모습

2022.05.24 현대자동차그룹 분량4분

테크놀로지의 종합 예술, 지능형 로봇에 대하여

로봇 개발 트렌드의 핵심인 감성지능과 운동능력을 중심으로 점점 지능화되고 자율성을 높여가는 로봇에 대해 알아봅니다.

새하얀 화면을 바라보는 아이와 4족 보행 로봇 ’스팟’의 모습

2020년대 이후 SF영화에서 보던 로봇이 어느 순간 현실에 ‘짠’하고 나타날 것 같습니다. 그만큼 기술이 빠르게 발전하고 있습니다. 갑작스레 등장한 듯하지만, 자세히 보면 소프트웨어, 인공지능, 음성인식, 자연어 처리기술, 가상현실, 메타버스, 클라우드, 5G 등 각각 발전해오던 기술의 융합이 이뤄낸 결과입니다. 테크놀로지의 종합 예술이라고 할 만큼 로봇은 온갖 기술이 어우러져 새로운 영역을 개척하고 있습니다. 

인간을 이해하는 감성지능

남자와 여자, 그리고 웃고 있는 로봇 DAL-e의 모습

로봇이 우리 삶에 관여하는 비중이 늘어나면서 ‘인간-로봇 상호작용’이라는 개념이 중요해지고 있습니다

바리스타 로봇이 따뜻한 커피를 내려주고, 서빙 로봇이 손님이 앉아 있는 테이블까지 음식을 나릅니다. 큐레이터 로봇은 미술관을 찾은 관람객들에게 도슨트를 대신해 전시물을 설명해주고, 요양원에선 돌봄 로봇이 노인들의 건강을 챙겨줍니다. 이처럼 로봇이 우리 삶에 관여하는 비중이 늘어나면서 ‘인간-로봇 상호작용(HumanRobot Interaction, HRI)’이라는 개념이 중요해지고 있습니다.

가장 기본 단계로, 생산 현장에 설치된 협동 로봇은 근로자의 작업속도에 맞춰 부품이나 재료를 매끄럽게 배급해주는 역할을 수행합니다. 예컨대 일본 로봇 스타트업 ‘RT코퍼레이션’의 휴머노이드 로봇 ‘푸드리(Foodly)’는 도시락 공장에서 사람을 도와 도시락에 반찬을 놓아주는 작업을 합니다. 이 기술을 구현하는 데 딥러닝과 구글의 머신러닝 오픈소스 플랫폼인 ‘텐서플로우(TensorFlow)’가 활용됐습니다.

산업 현장이 아닌 일상의 영역으로 들어오기 위해서는 로봇에게 사람의 감정을 읽어내고 감정을 표현하는 ‘감성지능’이 요구됩니다. 소셜 로봇이나 동반자 로봇은 집 안에 있는 사람들의 표정이나 움직임을 분석해 사람의 감정을 알아채고, 그에 맞는 대화를 유도해야 하기 때문입니다. 이를 위해서는 카메라를 통해 인간의 표정을 파악하고 인공지능으로 대화의 맥락(Context)을 이해하는 능력을 갖춰야 합니다. 인간의 말투, 제스처, 표정 등 다양한 생체신호를 영상과 음성 데이터로 습득하고 판단할 수 있는 멀티모달*이 주목받는 이유입니다.


*여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 뜻합니다. 전통적인 텍스트 이외에 인간의 음성, 제스처, 시선, 표정, 생체 신호 등을 융합하여 의사소통이 가능한 사용자 친화형 기술입니다.

책상을 치우고 있는 로봇 ‘에브리데이’와 그 모습을 지켜보는 두 남녀의 모습

기계학습 기술을 적용하여 로봇이 주변 세계를 보다 잘 이해하고, 일상적인 작업을 능숙하게 처리할 수 있도록 합니다

이처럼 감성지능을 갖추고 일상의 영역에서 여러 가지 일을 능수능란하게 처리하는 범용 로봇의 개발은 로봇 과학자들의 오랜 꿈입니다. 구글의 모기업 알파벳은 지난 2019년부터 ‘에브리데이 로봇(Everyday Robots)’이라는 범용 로봇 개발 프로젝트를 추진하고 있습니다. 이 로봇은 사무실 내부를 이동하면서 자기 팔로 문을 여닫거나, 책상이나 의자를 정리하고 쓰레기를 분류합니다. 이 범용 로봇은 다목적 그리퍼(Gripper)를 장착하고 있으며, 라이다, 카메라 등 자율 항법 센서들을 탑재하고 있습니다.

알파벳은 에브리데이 로봇의 구현을 위해 강화학습, 협업학습, 시연학습 등 기계학습 기술을 적용하고 있습니다. 이를 통해서 로봇이 주변 세계를 보다 잘 이해하고, 일상적인 작업을 능숙하게 처리할 수 있도록 합니다. 여기에 5G, 클라우드 기술이 접목되면서 지능형 로봇의 진화는 한층 더 속도를 내고 있습니다. 클라우드 시스템이 로봇의 ‘두뇌’ 역할을 하고, 5G 기술이 지연 없는 통신을 지원하면서 원격 로봇 수술, 원자력 발전소 원격 유지보수 등이 가능해지고 있습니다.

이외에도 다른 로봇의 지식을 습득하는 로봇, 의사의 관여 없이도 스스로 수술하는 자율수술 로봇, 전문 엔지니어의 도움 없이 사용자가 쉽게 로봇의 동작 프로그램을 자동으로 생성하는 기술 등 로봇의 진화는 끝없이 진행되고 있습니다.

지극히 인간스러운 운동 능력

역동적으로 움직이는 보스턴 다이내믹스 로봇의 모습, 왼쪽부터 스팟, 아틀라스

보스턴 다이내믹스의 휴머노이드 로봇 아틀라스는 눈 덮인 산길을 성큼성큼 걷고, 파쿠르 코스를 완벽한 동작으로 통과합니다

보스턴 다이내믹스는 현대자동차그룹이 인수하면서 우리에게 매우 친숙한 로봇 기업이 되었습니다. 유명한 휴머노이드 로봇 ‘아틀라스’가 처음 등장했을 때 많은 이들이 큰 충격을 받았습니다. 사람도 걷기 쉽지 않은 눈 덮인 산길을 성큼성큼 걸어가고, 파쿠르(Parkour) 코스를 완벽한 동작으로 통과했기 때문입니다. 4족 보행 로봇인 ‘스팟’은 공장 시설을 자율적으로 이동하면서 유해 가스누출, 외부인의 침입, 화재 발생 등을 점검합니다. 

아틀라스나 스팟과 같은 로봇의 운동능력은 우리가 익히 알고 있는 산업용 로봇과는 매우 다른 특성을 보이고 있습니다. 일반적으로 산업용 로봇은 ‘공장’이라는 매우 특수하고 구조화된 환경에서 동일한 동작을 무한 반복합니다. 특별히 지능과 운동능력을 필요로 하지는 않습니다. 그저 프로그램된 대로 동작할 뿐입니다. 또한 산업용 로봇은 작업자들과의 우발적인 충돌을 막기 위해 작업자들의 노동 공간과 철저하게 분리되어 운영됩니다. 작업자의 접근이 극도로 제한된 공간에서 산업용 로봇은 자동차나 전자제품의 조립, 도색, 용접 등 작업을 수행합니다. 이에 비해 협동 로봇, 서비스 로봇, 소셜 로봇 등 새로운 흐름을 주도하고 있는 로봇들은 불확실하고, 비구조화된 환경에서 인간과 교류하고 학습하면서 고도의 지능을 갖춘 존재로 진화하고 있습니다.

상자를 들어 올리는 로봇 스트래치와 4족 보행 로봇 스팟의 모습

빈 피킹 작업을 수행하기 위해 로봇은 시각(비전시스템)과 촉각을 기반으로 수많은 훈련을 해야 합니다

불확실성이 높고, 비구조적인 환경에 놓인 로봇이 변화무쌍한 환경에 적응하기 위해선 먼저 사람처럼 시각 지능과 촉각 지능이 있어야 합니다. 시각 지능은 카메라, 라이다 등 비전 센서들을 통해 구현됩니다. 시각 지능을 갖춘 로봇들은 이동 중에 사람이나 장애물을 만나면 회피하고 대체 경로를 찾습니다. 그래서 그에 걸맞은 운동능력이 필요합니다. 

최근에는 ‘빈 피킹(Bin Picking)’ 작업을 수행하는 로봇이 주목을 받고 있습니다. 빈 피킹은 상자 속에 흩어져 있는 다양한 물체 가운데 특정한 물체를 로봇 그리퍼로 집어 올리는 작업을 의미합니다. 빈 피킹 작업을 수행하기 위해 로봇은 시각(비전시스템)과 촉각을 기반으로 수많은 훈련을 해야 합니다. 

로봇은 물체 관련 이미지 데이터베이스와 실시간 3D 이미지를 비교하면서 물체들의 형태와 성질을 파악하고, 파지 방법을 학습합니다. 이런 훈련이 축적되면 지능 로봇은 그동안 한 번도 경험하지 않았던 물체를 인식하고 고를 수 있는 능력을 갖추게 됩니다. 

또한 로봇은 스스로 힘을 조절할 수 있는 능력을 갖춰야 합니다. 아틀라스가 험한 지형을 성큼성큼 걸어가고, 파쿠르 동작을 수행하는 것은 울퉁불퉁한 지면의 특성을 실시간으로 파악하고, 무릎을 어느 정도 굽히고 발에 힘을 주어야 하는지를 순간적으로 판단할 수 있는 지능을 갖추고 있기 때문입니다. 병간호 로봇이 환자를 케어하기 위해선 무리한 힘을 가하지 않고 편안하게 환자를 껴안을 수 있어야 하니까요.


글 | 장길수 로봇신문 편집국장

오랫동안 <전자신문>, <로봇신문>에서 IT 분야를 취재해왔습니다. 최근 몇 년간은 로봇에 관심을 두고 기술의 진화를 흥미롭게 지켜보고 있습니다. 로봇과 인간의 갈등보다는 공존을 위한 해법을 모색하고 있습니다.


※해당 콘텐츠는 모터스라인  2022년 1호에서 확인할 수 있습니다