GPT-4를 탑재한 Bing AI와 대화해보았습니다

3월 15, 2023

BingAI는 마이크로소프트 검색엔진 Bing 안에 탑재한 대화형 인공지능으로, 마이크로소프트가 ChatGPT의 개발사 OpenAI의 최대주주이기도 하여, 이 BingAI 역시 GPT-4엔진으로 작동합니다.

그래서 성능을 알아볼 겸, BingAI에게 2022년 한국 영화 관객수 순위를 알려달라고 해보았습니다.(처음에 20위까지 알려달라했다가 너무 길어서 10위로 줄여달라고 하긴 했습니다)

2022년 한국영화 흥행 순위 10위까지 알려줘

(여기서 중요한 BingAI의 차이점은, ChatGPT는 GPT-4엔진까지 포함해서 2021년 9월 이후 데이터를 가지고 있지 않고, 인터넷 검색 연동이 따로 없습니다. 그래서 갤럭시S23에 대해서 물어봐도 정확한 데이터를 얻을 수 없습니다. 반면, BingAI는 인터넷 검색 연동이 가능해서, 최신 데이터에 대해서도 질답이 가능합니다. ChatGPT가 최신 내용을 모르고, 또 거짓말을 잘 치는 약점을 보완한 것입니다.)

그런데?

기대치가 너무 높았던 것일까요? 검색 결과가 영 만족스럽지 않습니다.

아래 사진은 BingAI에 한국영화 관객순위를 알려달라고 제가 직접 입력했고, '잘못된' 결과를 출력한 모습입니다.

닥터 스트레인지2 관객수가 잘못 나온 것에 대해 추궁하는 모습...

BingAI에게 첫 질문은 '2022년 한국 영화 흥행 순위 20위까지 알려줘'이었습니다. 내용이 길기도 하고 수치가 잘못된 것처럼 보여서

'자료 정확한 거 맞아? 확인해서 1위부터 10위까지 관객수 기준으로 다시 뽑아줘'라고 추가로 입력했습니다.

여기에 대해 순위와 영화 제목 그리고 관객수까지, 세부적인 지시 없이 알아서 정리해서 출력했습니다.

하지만, 관객수 데이터를 부정확하게 가져옴으로써 순위가 다 틀어진 엉터리 자료를 만들고 말았습니다.

시킨대로 자료를 잘 취합해서 목록을 만들어주긴 했습니다. 다만, 아무리 깔끔하게 정리를 잘 해주어도 정리한 데이터가 부정확하다면 의미가 없을 것입니다.

BingAI는 인터넷 검색 연동을 통해 정확한 데이터를 제공하는 것을 자랑으로 하고 있음에도 불구하고, 부정확한 데이터를 취합해내고, 심지어 그것을 지적해도 이상한 핑계만 늘어놓고 있는 모습은 실망스러울 수밖에 없었습니다..

중간에

'빙아, 5월 4일날 개봉한 닥터 스트레인지2가 개봉 4일만에 300만명 넘게 봤는데 이게 맞다고?'

라고 물어보려한 것이, 키보드 입력이 씹히는 버그까지 겹쳐서 잘못 입력되기까지 했습니다. 여러모로 아쉬운 모습입니다.

(해당 버그에 대해선 정보가 거의 없는데, 개인적으로 추측하기로는 윈도우11로 엣지 구동시 생기는 버그 같습니다.)

BingAI가 부족한 것인지, 한국 데이터 부족때문인지, GPT-4엔진의 부족함인지 정확하게 판단하긴 어렵지만, 데이터 취합 완성도에 아직 부족함이 있다는 점 인지하시고, 사용시 정확하게 데이터를 사용했는지 확인하는 것 또한 필요할 것으로 보입니다.

요충이 블로그