말하고 듣는 AI 시대…뒤처진 한국어

입력 2017.02.21 (21:41) 수정 2017.02.21 (22:36)

읽어주기 기능은 크롬기반의
브라우저에서만 사용하실 수 있습니다.

    <기자 멘트>

1년 앞둔 평창 올림픽에서 통역 안내를 맡게 된 인공지능, AI 로봇입니다.

말 한 번 시켜볼까요?

<녹취> "주경기장으로 가는 버스를 놓쳤는데 택시 좀 불러주세요."

8개 국어가 가능합니다.

현재 2천만 개의 문장을 배웠고, 내년까지 학습하면 3천2백만 개 문장을 듣고 말 할 수 있게 됩니다.

퇴근하고 집에 왔습니다.

<녹취> "거실등 더 밝게."

<녹취> "KBS 1 틀어줘."

AI가 사물인터넷과 결합한 음성 인식 비서입니다.

글로벌 IT 기업뿐만 아니라 SKT, KT 같은 국내 기업도 이 시장에 뛰어들었죠.

올해만 전 세계에서 2,400만 대가 팔릴 것으로 예상되는데, 최근 2년동안 팔린 양의 4배나 됩니다.

삼성, LG전자도 차기작 스마트폰의 핵심 기능에 이 음성 인식 비서를 탑재합니다.

이렇게 말을 알아듣는 AI가 더 똑똑해지려면, 컴퓨터가 이해할 수 있게 코드화한 언어 자료가 필요합니다.

알파고가 이세돌을 꺾기 위해 스스로 학습할 때 수많은 기보를 활용한 것과 마찬가지입니다.

AI가 배우는 인간의 음성, 의미 등을 '말뭉치'라고 하는데요,

이 말뭉치가 많을수록 똑똑해질 수 있습니다.

한국어 기반 AI의 수준은 어디쯤 와 있을까요.

▼ 멈춰선 ‘한국어’ 말뭉치…‘산업 경쟁력’ 발목 ▼

<리포트>

관광객이 붐비는 인사동, 경찰이 통역 어플리케이션으로 외국인과 대화중입니다.

경찰 업무에 쓰는 특수한 표현들, 곧장 중앙 서버에 저장됩니다.

이 AI 비서는 출시 초기, 많은 사람들의 목소리 수집을 우선 전략으로 삼았습니다.

<인터뷰> 신윤호(SKT 마케팅팀 팀장) : "음성의 고조와 빠르기, 사투리와 같은 여러 가지 요소들이 있기 때문에 이러한 것들은 계속해서 연습시켜야..."

이렇게 개별 기업이나 연구단체가 한국어 말뭉치를 모은 게 5억 어절 정도, 영어는 2,000억 어절, 일본어는 100억 어절 이상의 말뭉치를 확보한 데 비하면 턱없이 부족합니다.

국립국어원이 한국어 말뭉치 수집 사업을 펼쳤지만 2007년 끝난 뒤 10년째 제자리입니다.

산업 현장에선 사람과 협업하는 AI 로봇이 쓰이고 있고, 미래엔 극한 환경에서 말을 알아듣는 로봇의 활용도 늘어날 것으로 예측됩니다.

그런데 기계가 우리 말을 이해하지 못하면 생산성 저하는 물론이고, 미래 먹거리인 음성인식 AI 시장의 주도권을 외국 업체에 빼앗길 가능성도 상당합니다.

<인터뷰> 김선철(국립국어원 언어정보과장) : "지금이라도 시작을 해서 많은 말뭉치를 확보하고 공급해줘야 해외 의존도도 낮아지고 우리 국부도 창출될 가수 있다는 것이죠."

영어권 국가에서는 방대한 영어 데이터를 벤처기업이 언제든 쓸 수 있어 경쟁력을 키우고 있습니다.

KBS 뉴스 지형철입니다.

■ 제보하기
▷ 카카오톡 : 'KBS제보' 검색, 채널 추가
▷ 전화 : 02-781-1234, 4444
▷ 이메일 : kbs1234@kbs.co.kr
▷ 유튜브, 네이버, 카카오에서도 KBS뉴스를 구독해주세요!


  • 말하고 듣는 AI 시대…뒤처진 한국어
    • 입력 2017-02-21 21:41:33
    • 수정2017-02-21 22:36:51
    경제
    <기자 멘트>

1년 앞둔 평창 올림픽에서 통역 안내를 맡게 된 인공지능, AI 로봇입니다.

말 한 번 시켜볼까요?

<녹취> "주경기장으로 가는 버스를 놓쳤는데 택시 좀 불러주세요."

8개 국어가 가능합니다.

현재 2천만 개의 문장을 배웠고, 내년까지 학습하면 3천2백만 개 문장을 듣고 말 할 수 있게 됩니다.

퇴근하고 집에 왔습니다.

<녹취> "거실등 더 밝게."

<녹취> "KBS 1 틀어줘."

AI가 사물인터넷과 결합한 음성 인식 비서입니다.

글로벌 IT 기업뿐만 아니라 SKT, KT 같은 국내 기업도 이 시장에 뛰어들었죠.

올해만 전 세계에서 2,400만 대가 팔릴 것으로 예상되는데, 최근 2년동안 팔린 양의 4배나 됩니다.

삼성, LG전자도 차기작 스마트폰의 핵심 기능에 이 음성 인식 비서를 탑재합니다.

이렇게 말을 알아듣는 AI가 더 똑똑해지려면, 컴퓨터가 이해할 수 있게 코드화한 언어 자료가 필요합니다.

알파고가 이세돌을 꺾기 위해 스스로 학습할 때 수많은 기보를 활용한 것과 마찬가지입니다.

AI가 배우는 인간의 음성, 의미 등을 '말뭉치'라고 하는데요,

이 말뭉치가 많을수록 똑똑해질 수 있습니다.

한국어 기반 AI의 수준은 어디쯤 와 있을까요.

▼ 멈춰선 ‘한국어’ 말뭉치…‘산업 경쟁력’ 발목 ▼

<리포트>

관광객이 붐비는 인사동, 경찰이 통역 어플리케이션으로 외국인과 대화중입니다.

경찰 업무에 쓰는 특수한 표현들, 곧장 중앙 서버에 저장됩니다.

이 AI 비서는 출시 초기, 많은 사람들의 목소리 수집을 우선 전략으로 삼았습니다.

<인터뷰> 신윤호(SKT 마케팅팀 팀장) : "음성의 고조와 빠르기, 사투리와 같은 여러 가지 요소들이 있기 때문에 이러한 것들은 계속해서 연습시켜야..."

이렇게 개별 기업이나 연구단체가 한국어 말뭉치를 모은 게 5억 어절 정도, 영어는 2,000억 어절, 일본어는 100억 어절 이상의 말뭉치를 확보한 데 비하면 턱없이 부족합니다.

국립국어원이 한국어 말뭉치 수집 사업을 펼쳤지만 2007년 끝난 뒤 10년째 제자리입니다.

산업 현장에선 사람과 협업하는 AI 로봇이 쓰이고 있고, 미래엔 극한 환경에서 말을 알아듣는 로봇의 활용도 늘어날 것으로 예측됩니다.

그런데 기계가 우리 말을 이해하지 못하면 생산성 저하는 물론이고, 미래 먹거리인 음성인식 AI 시장의 주도권을 외국 업체에 빼앗길 가능성도 상당합니다.

<인터뷰> 김선철(국립국어원 언어정보과장) : "지금이라도 시작을 해서 많은 말뭉치를 확보하고 공급해줘야 해외 의존도도 낮아지고 우리 국부도 창출될 가수 있다는 것이죠."

영어권 국가에서는 방대한 영어 데이터를 벤처기업이 언제든 쓸 수 있어 경쟁력을 키우고 있습니다.

KBS 뉴스 지형철입니다.

이 기사가 좋으셨다면

오늘의 핫 클릭

실시간 뜨거운 관심을 받고 있는 뉴스

이 기사에 대한 의견을 남겨주세요.

수신료 수신료