블로그 이미지
그레고리잠자
디지털 허리케인(Digital hurricane)을 방문해 주셔서 감사합니다. 강진규 기자의 블로그입니다. 디지털 허리케인은 북한 IT 뉴스를 제공합니다. 2007년 11월~2015년 9월 디지털타임스 기자, 2016년 6월~현재 머니투데이방송 테크M 기자, 인하대 컴퓨터공학부 졸업, 동국대 북한학과 석사과정 재학 중

calendar

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

Notice

2017.01.29 16:34 통일


(2017-01-29) 국립국어원 2017년 190만 어절 북한 말뭉치 구축


국립국어원이 올해 4월부터 12월까지 2017년도 북한 말뭉치 구축 사업을 진행한다고 합니다.


북한어 말뭉치 구축 사업은 북한어 및 북한 언어문화에 대한 이해를 위한 기초 자료로 말뭉치를 활용하기 위한 사업입니다. 현대 북한어 자료를 체계적으로 구축해 실효성 있는 남북 언어통합 정책의 효율적 추진을 도모하는 목적이 있습니다.


말뭉치는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합을 뜻합니다. 북한어 말뭉치는 북한어 및 북한 언어문화 연구, 통합 사전 편찬, 통합 교재 개발 등에 활용될 수 있습니다.


<사진1>


사진1은 그동안 진행된 사업의 추진 현황입니다.

2016년까지 총 원시 921만 어절, 분석 228만 어절의 말뭉치가 구축됐습니다.


올해는 문어 말뭉치 원시 100만, 분석 50만 어절 이상과 구어 말뭉치 원시 30만 및 분석 10만 어절 이상 등 총 190만 어절이 구축됩니다.


북한 신문, 잡지, 문학작품, 교과서 등 문어 말뭉치 대상 자료 실태 조사 및 말뭉치 구축이 진행되고 북한 뉴스, 영화, 탈북민 구술 자료 등에서 구어 말뭉치가 축줄될 예정입니다.


북한 후 한국은 서울말을 기준으로 표준어를 북한은 평양말을 기준으로 표준어를 사용하고 있습니다. 세월이 지날 수록 남북 언어의 이질성이 커지고 있습니다. 이를 극복하기 위해 남북 언어에 대한 연구가 지속적으로 이뤄져야할 것입니다.


강진규 기자 wingofwolf@gmail.com


저작자 표시 비영리 동일 조건 변경 허락
신고
posted by 강진규 그레고리잠자

티스토리 툴바