[경제합시다] “챗GPT, 유튜브 무허가 학습”…그런데 구글은 침묵

입력 2024.04.08 (18:30)

수정 2024.04.08 (18:34)

챗GPT가 똑똑해진 비결은 바로 '학습'이죠.

인터넷의 엄청난 데이터를 공룡이 먹어치우듯 배워 나갑니다.

한마디로 '데이터 폭식'인데, 어두운 비밀이 숨어있다는 보도가 나왔습니다.

[윤하/'오르트구름' 중 : "어둠만이 나의 전부였던 동안 숨이 벅차도록 달려왔잖아."]

이 노래 가사, 정확히 들리십니까.

개인차가 있겠지만, 외국인에겐 어떨까요.

거의 안 들리겠죠.

[위스퍼 AI 녹취 시연 : "어둠만이 나의 전부였던 동안 숨이 벅차도록 달려왔잖아."]

하지만 이 녹취 AI는 정확한 영문 가사를 순식간에 생성합니다.

챗GPT 개발사 오픈AI가 내놓은 '위스퍼'입니다.

기막힌 녹취 프로그램으로만 알려져 왔지만, 진짜 개발 목적은 따로 있었다고 뉴욕타임스가 보도했습니다.

챗GPT-3는 공개 데이터 3천억여 개로 똑똑해졌지만, 챗GPT-4부터는 학습할 데이터가 부족했습니다.

대안으로 유튜브에 주목했고, 동영상 말소리를 추출하는 '위스퍼'로 챗GPT-4가 백만 시간을 학습했다는 겁니다.

문제는 유튜브 약관 위반일 뿐 아니라, 유튜버들 저작권을 침해할 소지가 크다는 점입니다.

오픈AI가 과연 위법 소지를 몰랐을까.

최근 비슷한 질문을 받고 말을 얼버무렸습니다.

[미라 무라티/오픈AI 최고기술책임자/지난달 13일/월스트리트저널 인터뷰 : "(소라를 훈련하는 데 어떤 데이터가 사용되었나요?) 우리는 공개적으로 사용할 수 있는 데이터만 사용했습니다. (그럼 동영상은요?) 사실 그건 잘 모르겠습니다."]

그런데 유튜브 측도 무허가 학습을 알고 있었던 거로 보입니다.

구글도 유튜브 동영상을 자사의 AI 개발에 활용하고 있어 함께 엮이길 우려한 거라고 뉴욕타임스는 지적했습니다.

해당 보도는 복수의 내부자 증언을 토대로 했습니다.

보도가 사실이라면, 거대 AI는 조만간 거대 소송전에 휩싸일 가능성이 농후합니다.

지금까지 <경제합시다> 였습니다.

■ 제보하기
▷ 카카오톡 : 'KBS제보' 검색, 채널 추가
▷ 전화 : 02-781-1234, 4444
▷ 이메일 : kbs1234@kbs.co.kr
▷ 유튜브, 네이버, 카카오에서도 KBS뉴스를 구독해주세요!


이 기사가 좋으셨다면

이 기사에 대한 의견을 남겨주세요.