언론재단, 20년치 기사 학습한 AI 언어모델 ‘KPF-BERT’ 공개

입력 2022.02.23 (09:51) 수정 2022.02.23 (09:54)

읽어주기 기능은 크롬기반의
브라우저에서만 사용하실 수 있습니다.

한국언론진흥재단이 ‘언론사를 위한 언어정보 자원 개발 사업’ 결과물인 ‘KPF-BERT’를 공개했습니다.

‘KPF-BERT’는 구글에서 개발한 자연어 처리 딥러닝 언어 모델인 ‘BERT(Bidirectional Encoder Representations from Transformers)’에 언론재단이 보유한 빅카인즈 기사 데이터를 학습시킨 결과물입니다.

구글이 2018년 발표한 ‘BERT’는 앞의 단어들을 참조해 다음에 나올 단어를 예측하는 단방향 언어 모델과 달리 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더 잘 이해하는 방식으로 학습합니다.

인공지능을 활용한 뉴스 추천 배열이나 자동작성, 요약, 댓글 관리, 오·탈자와 비문 교정 등 언론 영역에서 인공지능(AI) 기술 도입과 적용 필요성은 높아지고 있지만, 언론사들은 자체 기술개발에 어려움을 겪고 있습니다. 이에 언론재단은 ‘언론사를 위한 언어정보 자원 개발’ 사업을 추진했고, 그 결과물로 ‘KPF-BERT’를 공개하게 됐다고 설명했습니다.

BERT를 활용한 기존 한국어 모델들은 위키백과나 웹 문서 등을 주로 학습했지만, ‘KPF-BERT’는 언론재단이 보유한 2000~2021년 8월의 빅카인즈 기사 8천만 건 중 1차 정제를 통해 추려낸 약 4천만 건을 학습해 언론사와 뉴스 기사 활용 기술에 최적화되도록 개선했습니다.

‘KPF-BERT’는 한국전자통신연구원(ETRI) BERT, SKT의 koBERT보다 기계 독해 등에서 향상된 성능을 보여줬다고 언론재단은 전했습니다.

언론재단은 ‘KPF-BERT’ 구축과 활용을 위한 안내 내용을 ‘한국언론진흥재단 깃허브(https://github.com/KPFBERT/)’에 모두 공개해 언론사와 연구자, 일반 시민 모두가 무상으로 이용할 수 있도록 했습니다. 또 ‘KPF-BERT’를 활용한 기사 요약기술, 비슷한 주제의 기사를 한데 묶는 클러스터링 기술도 개발해 한국언론진흥재단 깃허브에 함께 공개했습니다.

언론재단은 ‘KPF-BERT’를 활용할 경우 단순 맞춤법 검사를 넘어 문맥과 의미를 고려한 맞춤법 검사기, 뉴스 댓글 등에서 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등의 논조 파악 모델 등의 개발이 가능할 것으로 기대한다고 밝혔습니다.

‘KPF-BERT’의 이해를 돕는 영상은 유튜브 링크(https://youtu.be/Pj6563CAnKs)를 통해 볼 수 있습니다.

■ 제보하기
▷ 카카오톡 : 'KBS제보' 검색, 채널 추가
▷ 전화 : 02-781-1234, 4444
▷ 이메일 : kbs1234@kbs.co.kr
▷ 유튜브, 네이버, 카카오에서도 KBS뉴스를 구독해주세요!


  • 언론재단, 20년치 기사 학습한 AI 언어모델 ‘KPF-BERT’ 공개
    • 입력 2022-02-23 09:51:23
    • 수정2022-02-23 09:54:33
    문화
한국언론진흥재단이 ‘언론사를 위한 언어정보 자원 개발 사업’ 결과물인 ‘KPF-BERT’를 공개했습니다.

‘KPF-BERT’는 구글에서 개발한 자연어 처리 딥러닝 언어 모델인 ‘BERT(Bidirectional Encoder Representations from Transformers)’에 언론재단이 보유한 빅카인즈 기사 데이터를 학습시킨 결과물입니다.

구글이 2018년 발표한 ‘BERT’는 앞의 단어들을 참조해 다음에 나올 단어를 예측하는 단방향 언어 모델과 달리 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더 잘 이해하는 방식으로 학습합니다.

인공지능을 활용한 뉴스 추천 배열이나 자동작성, 요약, 댓글 관리, 오·탈자와 비문 교정 등 언론 영역에서 인공지능(AI) 기술 도입과 적용 필요성은 높아지고 있지만, 언론사들은 자체 기술개발에 어려움을 겪고 있습니다. 이에 언론재단은 ‘언론사를 위한 언어정보 자원 개발’ 사업을 추진했고, 그 결과물로 ‘KPF-BERT’를 공개하게 됐다고 설명했습니다.

BERT를 활용한 기존 한국어 모델들은 위키백과나 웹 문서 등을 주로 학습했지만, ‘KPF-BERT’는 언론재단이 보유한 2000~2021년 8월의 빅카인즈 기사 8천만 건 중 1차 정제를 통해 추려낸 약 4천만 건을 학습해 언론사와 뉴스 기사 활용 기술에 최적화되도록 개선했습니다.

‘KPF-BERT’는 한국전자통신연구원(ETRI) BERT, SKT의 koBERT보다 기계 독해 등에서 향상된 성능을 보여줬다고 언론재단은 전했습니다.

언론재단은 ‘KPF-BERT’ 구축과 활용을 위한 안내 내용을 ‘한국언론진흥재단 깃허브(https://github.com/KPFBERT/)’에 모두 공개해 언론사와 연구자, 일반 시민 모두가 무상으로 이용할 수 있도록 했습니다. 또 ‘KPF-BERT’를 활용한 기사 요약기술, 비슷한 주제의 기사를 한데 묶는 클러스터링 기술도 개발해 한국언론진흥재단 깃허브에 함께 공개했습니다.

언론재단은 ‘KPF-BERT’를 활용할 경우 단순 맞춤법 검사를 넘어 문맥과 의미를 고려한 맞춤법 검사기, 뉴스 댓글 등에서 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등의 논조 파악 모델 등의 개발이 가능할 것으로 기대한다고 밝혔습니다.

‘KPF-BERT’의 이해를 돕는 영상은 유튜브 링크(https://youtu.be/Pj6563CAnKs)를 통해 볼 수 있습니다.

이 기사가 좋으셨다면

오늘의 핫 클릭

실시간 뜨거운 관심을 받고 있는 뉴스

이 기사에 대한 의견을 남겨주세요.

수신료 수신료