본문 바로가기
딥러닝/음성인식

[Deep Learning] 음성인식(1)

by 채연2 2019. 8. 23.

소리 : 음성 + 음향

▶ 음성 : 음소의 합. 사람이 조음 기관을 사용하여 뜻을 전달하기 위해 의도적으로 만들어낸 소리

ex) 대본에 적혀 있는 대사의 뜻과 의도를 배우가 이해하여 소리로 표현하고(음성 발현) 이를 관객이 받아들이는 과정(음성 수용)

        ▷ 음소  문자 : 음소 하나하나가 문자의 자음이나 모음에 대응하는 문자와 그 체계

        ※ 특히 한글은 음절을 초성, 중성, 종성으로 구분함. 모음인 중성은 반드시 존재해야 하고,

            초성이나 중성은 자음으로 존재하거나 없어도 음절과 단어를 구성할 수 있음.

        ▷ 음소 배열론 : 자음과 모음의 결합으로 소리가 결합되어 단어를 이루는 규칙을 다룸.

        ▷ 음절 : 초성, 중성, 종성의 자음과 모음을 조합하는 구조. 조합된 한 글자는 하나의 음절을 생성.

         단어 : 한 개 이상의 음절의 모여 구성

        ▷ 음운론 : 음소, 음절과 같은 소리의 단위를 설정하고, 음성 원소들의 기능에 대하여 연구하는 분야

                → 음소론 : 음소의 구분과 기능을 다룸. 음소가 바뀌면 음절과 단어가 다른 뜻이 될 수 있다는

                                 변별적 특징(distinctive features)을 분석

                ex) 'ㅁ', 'ㅂ', 'ㅍ' 과 같은 음소에 따라 물, 불, 풀과 같은 최소 대립쌍의 의미 변화를 확인 가능

                 운소론 : 음절 구조, 악센트, 억양, 성조, 리듬 등 음소를 표현하는 방법에 대해 다룸.

                                 음성 인식 분야에 있어서는 중요도가 낮아 다루지 않음.

▶ 음향 : 음성의 배경에 존재하는 다양한 소리. 음성의 여집합

ex) 배우 주변의 바람, 태풍 등 자연의 소리나 자동차 경적, 전철의 이동 등 인공물이 내는 소리, 사람이 조음 기관 이외의 기관으로 만들어 내는 소리 등..

 

 


 

음성처리 분야

▶ 음성 코딩 : 음성 신호를 효율적으로 전성 및 저장하기 위한 코딩을 연구. 코덱을 이용하여 아날로그 신호를 디지털 값으로 변화.

▶ 음성 인식 : 사람이 말하는 음성 언어를 기계가 인식 및 해석하는 기술

        ▷ 화자 인식 : 음성 신호로부터 화자를 알아내는 기술. 입력받은 음성 데이터를 미리 저장된 데이터베이스와 비교하여 화자가 누구인지 식별하는 기술.

▶ 음성 합성 : 말소리의 음소를 기계가 자동으로 만들어 내는 기술.

        ▷ TTS(Text to Speech) : 문장을 음성 신호를 바꾸는 음성 합성.

 


 

음성인식 시스템 :

음성 신호를 받아 문장의 형태로 산출하는 역할을 하고 구현하기 위해서는 전처리, 패턴 인식, 후처리의 3단계가 필요.

즉, 전처리 및 특징 추출 작업을 통해 음성 신호에서 노이즈는 제거하고 특성(feature)을 추출하여 문장을 구성하는데 필요한 원소의 형태로 특징들을 인식(혹은 mapping). 원소들을 조합하여 문장의 형태로 표현

 (1) 전처리 : 음성 신호로부터 시간 및 주파수 영역의 특징을 추출해내는 과정. 음성 신호의 주기성과 동기성의 정보를 추출. 청각 시스템의 와우각(달팽이관)과 같은 기능.

목적은 음소들 간의 차이에 해당하는 음향학적 특성에는 민감하면서도, 그 이외의 음향적 변화(배경 잡음, 화자 차이, 발음 태도 등)에는 둔감한 음성 특징 parameter들을 추출하는 것.

 

 (2) 패턴 인식 : 특징으로부터 결과 값이 추출된 음성 신호의 전처리를 통해 얻어낸 특징을 바탕으로 문장을 구성하는데 필요한 원소인 음소, 음절, 단어를 인식해내는 역할.

음성의 기본 단위(단어, 반음절, 음소, 변이음 등)를 정함 > 훈련용 음성 데이터로부터 미리 이들 음성 단위에 해당하는 각각의 대표 패턴 또는 모델을 구해서 저장 > 인식하고자 하는 입력 음성의 특징 패턴이 분석되면 이를 저장된 대표 패턴 또는 모델들과 비교하여 가장 가까운 패턴들에 해당하는 음성 단위들을 인식된 단어 또는 음소의 후보로 결정.

 

 (3) 후처리 : 언어처리(문장 복원) 패턴 인식 후의 결과인 음소, 음절, 단어를 재구성해서 문장을 복원. 문장을 구성하기 위해 규칙, 통계 기반 모델을 이용. 언어학적 지식이 동원되어야 인식률이 높아짐.

        ▷ 구문 규칙 모델(syntactic) : 매 단어 다음에 올 수 있는 단어의 종류를 제한해 문장을 구성

        ▷ 통계적 모델(statistical) : 매 단어에 대해 이전의 N개의 단어가 발생할 확률을 고려해 문장을 인식

                                                         (N-gram으로 표현)

 

        ※언어학적 지식

          단어 구성에 관한 어휘론적(lexical) 지식

          문법구조에 관한 구문론적(syntactic) 지식

          문장 의미를 다루는 의미론적(semantic) 지식

          주제에의 부합 여부를 판단하는 실용론적(pragmatic) 지식

          의미론 및 실용론적 지식을 음성 인식에 적용하는 데에는 구현 상의 어려움이 있기 때문에,

             현재 음성 인식에 사용되는 언어학적 모델은 주로 어휘론 및 구문론적 지식에 기반을 두고 있음.

 

<음성인식 시스템의 기본 구성도>

 


 

음성인식 알고리즘

 (1) 퍼지 이론 : 확률 이론과 이치 논리의 결합. 어떤 속성을 나타내는 집합을 설정하고 어떤 원소들이 이 집합에 속하는 정도를 0~1 사이의 값으로 나타내는 것. 원소의 관점에서 보았을 때 자기 자신이 어떤 집합에 어느 정도로 표함 되는지를 표현.

단순히 긍정, 부정밖에 할 수 없는 이치 논리와는 달리 애매모호한 사실 표현과, 논리적으로 표현, 추리하는 데 유리. 또한, 확률처럼 원소의 확률의 합이 반드시 1이 되어야 할 필요가 없음.

 

 (2) 신경망 : 1950년대 맥클로와 피츠의 신경망 연구. 신경망 학문은 컴퓨터로 생체와 같은 성능(사물을 인식, 사고, 운동하는 데 있어서 탁월한 능력을 발휘)을 내기 위해 신경망의 구조와 메커니즘을 연구하여 생체의 지능 시스템을 수학적으로 해석하려는 데서 유래.

부분적으로 인간의 두뇌 모델에 기초를 두고 학습이 진행됨에 따라 점차적으로 정보 분류 능력이 향상됨.

 

☞ 공통점 : 애매모호한 데이터 처리 가능

☞ 차이점 : 퍼지 - 애매모호한 개념을 표현하기 위한 것

                   신경망 - 주어진 데이터로부터 스스로 배워 어떤 일반적인 특징을 끄집어내기 위한 것

 

 (3) 시뮬레이티드 어닐링 : 1983년 패트릭에 의해 물체 구조의 상태를 연구하다가 발명됨. 유리나 철과 같이 고온에서 액체 상태로 있는 물질을 어떤 속도로 식히느냐에 따라 각기 다른 에너지를 갖는 최종의 결정 상태가 다르게 나오는 현상을 발견하고 이를 통해 함수의 최솟값을 결정할 수 있는 최적화 알고리즘을 발명.

 (4) 유전 알고리즘(Genetic Algorithm) : 1975년 홀란드가 생물의 진화 메커니즘을 연구하다가 고안해 냄. 교배, 돌연변이 등을 수학적으로 표현하였고, 결국 최고의 인구를 갖게 되는 최적화 알고리즘.

 

☞ 공통점 : 주어진 문제를 풀어 가장 적합한 해를 구해내려는 것

☞ 차이점 : 시뮬레이티드 어닐링 - 물질상태가 이론의 배경 / 유전 알고리즘 - 생체 진화가 이론의 배경

 

320x100

'딥러닝 > 음성인식' 카테고리의 다른 글

[KALDI] kaldi와 zeroth(1)  (0) 2019.08.27

댓글