“중국 딥시크 AI 모델, 미국 최고 모델보다 앞서거나 거의 동등”

입력 2025.01.28 (07:57) 수정 2025.01.28 (08:12)

읽어주기 기능은 크롬기반의
브라우저에서만 사용하실 수 있습니다.

중국 인공지능(AI) 스타트업 딥시크가 내놓은 AI 모델이 챗GPT 개발사 오픈AI 등의 모델을 일부 앞섰다는 평가가 나왔습니다.

딥시크는 지난해 12월 대규모 언어모델(LLM) V3를 공개했고 지난 20일에는 R1이라는 추론 모델을 선보였습니다.

딥시크는 기술보고서에 V3의 성능을 오픈AI의 가장 강력한 모델인 GPT-4o, 페이스북 모회사 메타플랫폼(이하 메타)의 AI 모델인 라마 3.1, 앤스로픽의 AI 모델 클로드 3.5 소네트와 비교한 결과 22개 평가 테스트 가운데 13개 부문에서 다른 경쟁 모델보다 가장 뛰어났다고 설명했습니다.

선별된 500개의 수학 문제 테스트(MATH-500)에서 V3는 90.2%의 정확도를 보여 80%에 그친 다른 모델을 압도했습니다. 다중 언어 코드 생성 평가(HumanEval-Mul)에서는 82.6%로 80.5%와 77.2%에 각각 그친 GPT-4o와 라마 3.1을 앞섰습니다.

다양한 언어 이해 작업을 수행할 수 있는 대규모 멀티태스크 언어 이해 능력 평가(MMLU)에서는 89.1%로, 두 번째로 높았던 클로드 3.5 소네트(88.9%)를 넘어섰습니다.

수치 추론과 정보 추출 능력 테스트(DROP)에서는 91.6%, 중국어 기반 테스트(C-Eval)에서도 43.2%를 받아 10점대 이하에 그친 다른 모델을 앞섰습니다.

여기에 새로이 공개된 추론 특화 모델 ‘딥시크-R1’의 성능은 더욱 향상된 것으로 드러났습니다.

미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 79.8%의 정확도를 기록해 오픈AI의 추론 모델 ‘o1’(79.2%)을 앞섰고, 500개 수학 문제 테스트에서 정확도는 97.3%를 기록했습니다. 다양한 주제의 복잡한 다중 질문 테스트(FRAMES)에서도 82%로 76.9%의 ‘o1’을 능가했습니다.

AI 데이터 기업 스케일AI의 알렉산더 왕 최고경영자는 “우리가 발견한 것은 딥시크의 성능이 최고이거나 미국의 최고 모델과 거의 동등하다는 것”이라고 말했습니다.

마이크로소프트 사티아 나델라 최고경영자는 지난주 스위스 다보스에서 열린 세계경제포럼에서 “딥시크의 새로운 모델을 보면 추론 연산을 수행하는 오픈소스 모델을 정말 효과적으로 만들면서, 슈퍼 컴퓨팅 효율성도 뛰어나다는 점에서 엄청나게 인상적이다”라고 평가한 바 있습니다.

[사진 출처 : 연합뉴스]

■ 제보하기
▷ 카카오톡 : 'KBS제보' 검색, 채널 추가
▷ 전화 : 02-781-1234, 4444
▷ 이메일 : kbs1234@kbs.co.kr
▷ 유튜브, 네이버, 카카오에서도 KBS뉴스를 구독해주세요!


  • “중국 딥시크 AI 모델, 미국 최고 모델보다 앞서거나 거의 동등”
    • 입력 2025-01-28 07:57:20
    • 수정2025-01-28 08:12:54
    국제
중국 인공지능(AI) 스타트업 딥시크가 내놓은 AI 모델이 챗GPT 개발사 오픈AI 등의 모델을 일부 앞섰다는 평가가 나왔습니다.

딥시크는 지난해 12월 대규모 언어모델(LLM) V3를 공개했고 지난 20일에는 R1이라는 추론 모델을 선보였습니다.

딥시크는 기술보고서에 V3의 성능을 오픈AI의 가장 강력한 모델인 GPT-4o, 페이스북 모회사 메타플랫폼(이하 메타)의 AI 모델인 라마 3.1, 앤스로픽의 AI 모델 클로드 3.5 소네트와 비교한 결과 22개 평가 테스트 가운데 13개 부문에서 다른 경쟁 모델보다 가장 뛰어났다고 설명했습니다.

선별된 500개의 수학 문제 테스트(MATH-500)에서 V3는 90.2%의 정확도를 보여 80%에 그친 다른 모델을 압도했습니다. 다중 언어 코드 생성 평가(HumanEval-Mul)에서는 82.6%로 80.5%와 77.2%에 각각 그친 GPT-4o와 라마 3.1을 앞섰습니다.

다양한 언어 이해 작업을 수행할 수 있는 대규모 멀티태스크 언어 이해 능력 평가(MMLU)에서는 89.1%로, 두 번째로 높았던 클로드 3.5 소네트(88.9%)를 넘어섰습니다.

수치 추론과 정보 추출 능력 테스트(DROP)에서는 91.6%, 중국어 기반 테스트(C-Eval)에서도 43.2%를 받아 10점대 이하에 그친 다른 모델을 앞섰습니다.

여기에 새로이 공개된 추론 특화 모델 ‘딥시크-R1’의 성능은 더욱 향상된 것으로 드러났습니다.

미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 79.8%의 정확도를 기록해 오픈AI의 추론 모델 ‘o1’(79.2%)을 앞섰고, 500개 수학 문제 테스트에서 정확도는 97.3%를 기록했습니다. 다양한 주제의 복잡한 다중 질문 테스트(FRAMES)에서도 82%로 76.9%의 ‘o1’을 능가했습니다.

AI 데이터 기업 스케일AI의 알렉산더 왕 최고경영자는 “우리가 발견한 것은 딥시크의 성능이 최고이거나 미국의 최고 모델과 거의 동등하다는 것”이라고 말했습니다.

마이크로소프트 사티아 나델라 최고경영자는 지난주 스위스 다보스에서 열린 세계경제포럼에서 “딥시크의 새로운 모델을 보면 추론 연산을 수행하는 오픈소스 모델을 정말 효과적으로 만들면서, 슈퍼 컴퓨팅 효율성도 뛰어나다는 점에서 엄청나게 인상적이다”라고 평가한 바 있습니다.

[사진 출처 : 연합뉴스]

이 기사가 좋으셨다면

오늘의 핫 클릭

실시간 뜨거운 관심을 받고 있는 뉴스

이 기사에 대한 의견을 남겨주세요.

수신료 수신료