조글로로고
음성인식 어려운 우리말… 세종대왕은 왜 ‘쌍리을’ 안 만들었을까
조글로미디어(ZOGLO) 2017년5월27일 12시47분    조회:2591
조글로 위챗(微信)전용 전화번호 15567604088을 귀하의 핸드폰에 저장하시면
조글로의 모든 뉴스와 정보를 무료로 받아보고 친구들과 모멘트(朋友圈)로 공유할수 있습니다.
['AI 4총사' 써 봤더니...] 수많은 예외적 발음, 디지털 음성인식 난제


#1
L-R에 뜻 구별되는 영어와 달리
‘ㄹ’ 발음 따라 의미 다른 한국어 없어
굳이 쌍리을 만들지 않았던 것
#2
“들리는 대로 사전 찾으면 없어”
외국인들 어려워하는 발음 규칙
AI도 곤란해하긴 마찬가지

한국인은 영어 L 소리와 R 소리를 분명히 구분해 인식하고 발음하지만 한글은 이를 구분하지 않고 ‘ㄹ’ 하나로 표기한다. 세종대왕이 훈민정음을 창제하면서 각각의 소리를 나타내는 글자를 따로 만들지 않은 이유는 무엇일까. 한국일보 자료사진

미국 여행 중 옷을 한 벌 사러 쇼핑센터에 들른 정모(44)씨는 점원에게 “라지 사이즈”를 달라고 말했다가 말이 안 통해 당황했다. 그래도 대학을 졸업했는데 ‘라지(Large)’에서 막히다니? 정씨는 그러나 곧 자신이 ‘Rarge’에 가깝게 발음했다는 사실을 알아차렸다. 한국인이 L 소리와 R 소리를 구분하지 못하는 것은 아니다. 명확히 구분하고 발음할 줄 알지만, 한국 말에서 L 소리는 받침(종성)에서만, R에 가까운 소리는 초성에서만 나기 때문에 무의식 중에 두 발음을 혼동하는 것이다. 

리을 발음의 저 복잡다양함

만약 세종대왕이 ‘나랏말씀이 영국과 다를 백성마저 딱하게 여겨” 한글 창제시 L 소리를 표현할 글자를 하나 더 만드셨다면 어땠을까. 가령 ‘ㄹ’에 가획한 어떤 글자나 쌍리을(ㄹㄹ) 같은 것으로 L 소리를 표기했다면? ‘Large’를 ‘ㄹ라지’로 쓴다면 정씨처럼 무의식적으로 R 발음을 하는 실수는 줄지 않았을까. Hotel을 ‘호텔ㄹ’로 쓰고, Paper는 ‘페이펄’로 쓴다면 종성의 L과 R을 정확히 발음하는 데에도 도움이 되지 않을까. 그러나 안타깝게도 세종대왕은 쌍리을을 만들지 않으셨다. 수백년 전 컴퓨터 키보드와 휴대폰 문자판을 예상하고 한글을 만드셨다는 (소문이 있는) 세종대왕이, 도대체, 왜? 

한글은 표음문자다. 28자만으로 매우 다양한 소리를 표기할 수 있다고 알려져 있다. 하지만 실상 우리나라 말은 표기와 발음 사이의 괴리가 매우 크다. ‘ㄹ’만 놓고 얼마나 다양한 발음이 나는지 보자. 우선 ‘ㄴ’ 받침 뒤에 ‘ㄹ’이 올 경우 두 가지 발음규칙이 있다. ‘난로[날로]’처럼 ‘ㄹ-ㄹ’로 발음하는 유음화와, ‘생산량[생산냥]’처럼 ‘ㄴ-ㄴ’으로 발음하는 비음화다. 받침 ‘ㄹ’ 뒤에 ‘ㅂ, ㄷ, ㅅ, ㅈ, ㄱ’가 이어질 때에는 ‘물고기[물꼬기]’처럼 된소리로 바뀔 때도 있고, ‘불고기[불고기]’처럼 안 바뀔 때도 있는데 어떤 경우에 된소리가 되는지 규칙이 없다. 한국어 음성학 전공인 김종덕 박사(전 도쿄외대 부교수)는 “‘ㄹ’ 뒤에 ‘ㅅ’이 오는 경우 90% 정도가 된소리로 발음한다는 경향은 있지만, 어떤 조건에서 된소리가 나는지 규칙을 찾기 어렵고 사전을 통해 확인하는 수밖에 없다”며 “한국어에서 가장 발음법칙이 복잡하고 어려운 글자가 리을”이라고 말한다. 

이것이 끝이라면 좋겠다. 벌써 머리가 아프면 이 단락은 읽지 말고 건너뛰자. ‘서울역[서울력]’, ‘알약[알략]’처럼 ‘ㄹ’ 뒤에 모음이 이어지는 단어에서 ‘ㄴ’이 첨가돼 다시 ‘ㄹ’로 발음이 바뀌는 경우도 있는데 이 역시 규칙을 찾기 어렵다. 예외 없이 적용되는 보편 발음규칙도 있는데 ▦‘칼날[칼랄]’ ‘달나라[달라라]’처럼 늘 ‘ㄹ-ㄹ’로 발음(받침 ‘ㄹ’ 뒤에 초성 ‘ㄴ’이 올 경우)하거나 ▦’심리[심니]’ ‘종로[종노]’처럼 ‘ㄹ’을 늘 ‘ㄴ’으로 발음하거나(‘ㅁ, ㅇ’ 받침 뒤에서) ▦‘합리[함니]’ ‘석류[성뉴]’처럼 받침과 ‘ㄹ’이 함께 비음(‘ㅁ-ㄴ’, ‘ㅇ-ㄴ’)으로 바뀌는 경우(‘ㅂ, ㄷ, ㅅ, ㅈ, ㄱ’ 받침 뒤에서)가 그렇다. 

발음대로 쓰지 않는 한국어

이쯤 되면 단지 한글에 쌍리을 없는 게 문제가 아닌 것 같다. 한국어가 과연 표음문자가 맞기나 한 건지 의심스럽다. 아이나 외국인이 처음 한글을 배울 때 어려운 점이 이 대목이다. 연세대 국어국문학과에서 석사과정을 밟고 있는 중국인 학생 쥐이신(鞠鑫)씨는 “처음 한국어를 배울 때 받아쓰기 시험을 치면 늘 틀렸다. 발음 나는 대로 쓰면 맞춤법에 맞지 않았다”고 말한다. 듣기만 해서는 모르는 단어를 사전에서 찾기도 쉽지 않았다고 그는 덧붙인다. “한국인과 대화를 하거나 드라마를 볼 때 모르는 단어가 들리면 사전을 찾고 싶은데 받침으로 뭘 쓰는지를 알 수가 없어요. 예를 들어 ‘혁명’이라는 단어를 찾아야 할 때 ‘형명’ ‘현명’ 등으로 들려서 이런 단어를 찾으면 사전에는 안 나오는 식이죠.” 그는 “특히 겹받침을 쓰는 단어가 가장 어렵다”고 말한다. 같은 과 석사과정 중인 일본 학생 니시오카 리나(西罔莉菜)씨도 같은 이유로 “사람 이름이나 지명처럼 처음 듣는 고유명사를 가장 알아듣기가 어렵다”고 말했다. 

연세대 국어국문학과 대학원을 다니는 외국인 유학생들은 “한글이 표음문자인데도 발음과 표기 사이의 차이가 상당해 배우기가 쉽지 않다”고 입을 모았다. 고영권기자 youngkoh@hankookilbo.com
일어와 비교하면 갑자기 한국어를 배운 게 억울하다고 느낄 수 있다. 일어에서 다리(橋)는 ‘하시’로 읽고 ‘はし’로 쓴다. 새 다리(新橋)는 ‘신바시’로 읽는데 표기 역시 발음 그대로 ‘しんばし’로 쓴다. 소리 나는 대로 쓰고 쓴 대로 읽으니 복잡한 발음법칙과 맞춤법 문제가 없다. 한국어에서도 ‘끄치’ ‘끈나다’ ‘끄테’처럼 소리 나는 대로 쓴다면 아이들은 쉽게 받아쓰기 100점을 맞을 것이다. 

바쁘면 이 단락도 건너뛰어도 된다. ‘끝이’ ‘끝나다’ ‘끝에’를 표기법에 맞다고 하는 것은 한국어가 형태소(의미를 가진 최소 단위)를 유지해 표기하는 원칙을 채택했기 때문이다. 그리고 그 뿌리는 음소 개념을 발견하고도 초성-중성-종성을 모아 한 음절로 표기하는 모아쓰기 원칙을 정립한 세종대왕으로 거슬러 올라간다. 일어는 음소글자가 아닌 음절글자(한 음절이 한 글자)여서 발음을 표기에 반영하기가 상대적으로 쉽다. 때문에 한글을 배우는 아이들은 받아쓰기 시험을 치르느라 힘들어졌지만, 대신 ‘끝나라’와 ‘끈나라’처럼 의미가 다른 단어들을 쉽게 구분할 수 있다. 

세종대왕, 알고도 만들지 않았다

앞의 질문으로 돌아가, 세종대왕은 왜 쌍리을을 만들지 않았을까. 전세계 언어학자들이 인정하는 천재적인 언어ㆍ음성학자였던 그가 음가를 구분 못해 ‘ㄹ’ 한 자에 만족했다고 보기는 어렵다. 세종대왕을 깎아내리고 싶어도 그럴 가능성은 희박하다. 현대 국어학자들이 내놓는 답은 “’ㄹ’의 음가가 둘 이상이라는 것을 세종대왕이 몰라서가 아니라, 필요가 없었기 때문에 추가 글자를 만들지 않았다”는 것이다. 이 무슨 ‘세종대왕 무오류성 원칙’ 같은 소리란 말인가. 

‘ㄹ’ 하나만으로 충분한 이유는 우리나라 말 중에 R/L 소리에 따라 의미가 달라지는 단어가 없기 때문이다. 예를 들어 ‘발’과 ‘팔’은 ‘ㅂ-ㅍ’만 다른데 전혀 다른 의미의 단어가 된다. 그래서 한국어는 ‘ㅂ’과 ‘ㅍ’을 별개의 음소로 구분한다. 그러나 ‘ㄹ’의 경우 이처럼 L/R의 소리 차이로 의미가 구별되는 단어쌍이 전혀 없다. ‘ㄹ’은 한 글자로도 충분했던 것이다.

천재적인 언어학자였던 세종대왕은 음소의 개념을 바탕에 두고 한국어 음가를 체계적으로 분류해 훈민정음 28자를 만들었다. 세종대왕이 L 소리와 R 소리를 구분해 표기할 글자를 따로 만들지 않은 이유는 한국어에서 이를 구분할 필요가 없었기 때문이다. 한국일보 자료사진
음성인식의 최대 난제는 한국어

발음법칙이 복잡하고 예외도 많고 규칙조차 없는 경우가 허다한 한국어의 현실은 최근 발전하는 디지털 음성인식에도 난제를 안긴다. 경계가 명확치 않은 ‘아’와 ‘어’ 소리를 구분하는 것부터 시작해, ‘성뉴’를 ‘석류’로 이해하고, ‘소주’ ‘쏘주’ ‘쐬주’ 등 다양한 발음을 알아듣는 것 모두 난관이다. 

발음만 문제가 아니다. 한국어는 동사의 어미 활용으로 시제, 존칭, 사동/피동 등을 표현하는 등 접사 활용으로 단어의 의미와 문법적 기능이 달라지는 몇 안 되는 언어다. 가령 ‘찾으셨으리라’는 단어를 듣고 동사의 뜻(찾다)과 높임(시), 시제(었), 추측(리라)을 모두 파악하는 것이 AI에겐 만만치 않은 과제다. 하물며 한국인 중에도 어른이 아닌 물건을 높여 말하는 이들이 허다함에랴. 강승식 국민대 소프트웨어융합대학 교수는 한국어 어휘를 기술적 난제로 꼽았다. 강 교수는 “‘노랗다’는 뜻의 영어 단어는 ‘Yellow’로 대표되지만, 한국어에는 ‘노랗다’ ‘누렇다’ ‘노르스름하다’ ‘누리끼리하다’ 등 무수히 많다 보니 AI가 이런 어휘를 다 인식하기가 힘들다”고 말했다. 

세종대왕은 쌍리을을 만들지 않았지만 그는 잘못이 없다. 기계와의 소통이 어렵다고 한국말을 탓할 필요도 없다. 어차피 나면서부터 한국말을 써온 이들끼리도 소통은 어렵고 오해는 쉽다. 

한국일보
Total : 1576
  • 연변문련, 연변인민출판사(사장 겸 총편집, 량문화)에서 주최하고 ”장백문화추진회”,《문화시대》편집부(주필 김영건)에서 주관, 연변화하상황균업유한회사(사장 라동도),성관체육문화매체유한공사에서 협찬한 제1회 동도컵 《장백문화대상》시상식이 3월 13일, 연변호텔 다공능회의실에서 있었다. 연변인민출...
  • 2015-03-13
  • 짧아야 반년은 준비해야 한다는 음력설야회 두달간에 완성   수백만원의 제작비가 들어야 한다는 음력설야회 50만원으로   (흑룡강신문=하얼빈)윤운걸 길림성 특파원=2015년 음력설부터 두달 전 김영건 국가1급감독(현 문화시대잡지 주필)의 스마트폰이 울린다.   연길TV에서 2015년음력설야회(이하 야회)를 사상 처음...
  • 2015-03-03
  • 습근평총서기가 27년간 연설과 문장에서 자주 인용한 전고(典故)를 집대성한 《습근평용전(用典)》이 일전 출간되였다. 《습근평용전》은 “경민(敬民)”, “위정(为政)”, “수신(修身)”, “임현(任贤)”, “천하(天下)”, “법치(法制)”등 13개 편과 장으...
  • 2015-03-02
  • 한국 SBS가 스페셜(TBC 3월 1일 밤 11시15분,중국시간 10시 15분)로 조선의용군 김학철의 발자취를 특별 조명한다.  ‘나의 할아버지 김학철, 조선의용대 최후의 분대장’ 편은 일제강점기 때 독립운동가였던 김학철 선생의 삶과 행적을 고스란히 전한다. 프로그램은 독립투쟁을 벌였던 김학철 선생의 삶을...
  • 2015-03-01
  • 화려한 무대, 혁신의 프로 -연변텔레비죤방송국 2015년 음력설문예야회를 평함   련무 《뿌리》의 한장면   연변텔레비죤방송국에서 펴낸 2015년 음력설문예야회가 2015년 2월 19일 저녁 8시에 광대한 시청자들과 대면하였다. 필자도 한 보통 시청자의 신분으로 약 3시간가량 되는 야회프로를 처음부터 마지막까...
  • 2015-02-28
  •   국가신문출판라지오텔레비죤방송총국에서 주최한 “년간 대중들이 사랑한 50종 도서”선정결과가 드디여 지난 18일 , 음력설을 앞두고 정식으로 공포됐다. 신화넷, 인민넷 등 문학코너에 올려진 공펴결과를 살펴보면 《습근평 치국리정을 말하다》, 《등소평전》, 《중국인의 엔더라인을 지키자》, 《목욕...
  • 2015-02-28
  • 동포·현지인 참여…5월부터 예선 치르고 7월 대회 후 8월 방송 (서울=연합뉴스) 강성철 기자 = 광복 70주년을 기념해 중국에서 동포와 현지인이 참가하는 '전국노래자랑' 대회가 열린다.   재중국한국인회(회장 이숙순)은 "1945년 일본의 패망과 함께 이뤄진 광복이 올해 70주년을 맞는 것은 우...
  • 2015-02-24
  • 中지린성 이주 마을서 구전 확인… 애절한 동포의 발자취 음악극으로 24, 25일 서울 구로구민회관서 공연 중국 동북부의 한 마을에서 발견된 청주아리랑에 관한 이야기를 담은 음악극 ‘회연-랩소디 오브 C아리랑’의 국내 공연을 앞두고 출연진이 연습에 한창이다. 예술나눔 제공   “아리랑 아...
  • 2015-02-23
조글로홈 | 미디어 | 포럼 | CEO비즈 | 쉼터 | 문학 | 사이버박물관 | 광고문의
[조글로•潮歌网]조선족네트워크교류협회•조선족사이버박물관• 深圳潮歌网信息技术有限公司
网站:www.zoglo.net 电子邮件:zoglo718@sohu.com 公众号: zoglo_net
[粤ICP备2023080415号]
Copyright C 2005-2023 All Rights Reserved.