보스턴다이내믹스(Boston Dynamics)가 최근 블로그를 통해 4족보행 로봇 스팟(Spot)에 챗GPT를 적용해 사람과 자연스럽게 대화하는 투어 가이드 로봇의 데모를 공개했다.

오픈AI의 챗GPT를 적용한 스팟은 마치 생성AI와, 이미지왁 관련된 질문에 대한 답변을 찾는 VQA(Visual Question Answering) 기술을 이용해 일정한 지역을 돌아다니면서 각 지역에 대한 질문에 답변을 하고 안내를 제공하는 가이드 역할을 수행한다.

매트 클링앤스미스(Matt Klingensmith) 보스턴다이내믹스의 수석 소프트웨어 엔지니어는 블로그를 통해 투어 가이드를 수행하는 스팟이 어떻게 만들어지게 됐고, 어떤 특징을 갖고 있으며, 어떤 성과를 얻을 수 있었는지 자세히 설명했다.

스팟은 로봇이 투어를 진행할 각 영역을 지정하는 간단한 스크립트와 각 영역의 목적을 설명하는 간단한 문장을 제공했다. 스팟은 이 문장을 통해 얻은 정보를 카메라의 이미지와 결합 한 후 VQA를 통해 이미지와 관련된 더 많은 정보를 찾아내고, 음성으로 응답을 제공할 수 있다.

스팟은 심지어 여러 가지 성격과 특성을 제공할 수 있다. 10대 여자 아이부터, 영국식 액센트의 집사, 셰익스피어 연극배우 등 각각의 특징을 간단히 지정하면 알아서 개성적인 성격과 목소리를 만들어 낸다.

사람과 농담을 하고, 목이 마르다고 하면 음수대로 안내하거나, 심지어 부모를 보여달라는 요청에 보스턴다이내믹스가 만든 스팟의 초기 버전에게 데려가는 등, 단순히 명령을 따르는 것이 아닌 맥락을 이해하고 적절히 대응해 나간다는 점에서 의미가 있다.

매트 클링앤스미스 수석 엔지니어는 "스팟은 자신이 보고 있는 것에 대한 배경 이야기를 통합하고, 이를 재해석해 설명할 능력을 갖고 있다"며, "물론 생성AI의 환각 현상 등을 해결하지 못하면 투어 가이드 역할에는 적용할 수 없다는 한계를 갖고 있지만 현재로써는 다양한 용도로 활용할 수 있는 충분한 가능성을 보여준다"고 설명한다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지