위험 소리 인식 시스템의 방법

국내 연구진이 인공지능(AI)을 이용해 소리를 듣고 어떠한 상황인지 음향 인식 기술력을 겨루는 국제대회에서 세계 1위를 달성했습니다. 이로써 기계가 사람과 같이 청각을 인식하는 길에 한 걸음 더 나아가고 음향 기술과 다양한 산업 분야의 융합이 가속화될 전망입니다. 

위험 소리 인식 시스템의 방법
인공지능 개발에도. 출처: fotolia

한국전자통신연구원(ETRI)은 지난 3일, 세계적인 인공지능 기반 음향 이벤트 및 장면 인식 기술 경진 대회(DCASE) '음향 장면 인식 분야'에 참가해 전 세계 기업, 대학 연합팀들과 겨뤄 우수한 성적을 거뒀다고 밝혔습니다. 

AI 음향 인식 대회?!

올해로 6회째를 맞이한 본 대회는 세계 최대 전기·전자기술자협회(IEEE) AASP(Audio and Acoustic Signal Processing)가 주관하고 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수 기관이참가하는 음향 기술 관련 유일한 대회입니다. 대회는 6개 분야에 총 138개 팀과 473개의 제안 시스템이 제출돼 지난 3월부터 6월 중순까지 과제별 기술 경쟁이 이뤄졌습니다. 

ETRI가 참가한 분야 중 하나인 '복수 단말 대상 음향 장면 인식' 과제는 여러 종류의 단말기로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 분야입니다. 액션캠 및 바이노럴 마이크 뿐 아니라 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호 특성을 아울러 정확하게 판단하는 분야로 '일반화 성능'이 관건입니다. 예를 들면, 학습용 음향 데이터로 프랑스 파리 지하철에서 나는 소리를 스마트폰으로 녹음한 파일이 주어지면 이를 인식하는 시스템을 개발한 뒤, 평가에서는 학습에 쓰이지 않았던 액션캠으로 녹음된 지하철 소리를 들려주며 상황을 맞힐 수 있는지 알아보는 방식입니다.

연구진은 해당 분야에서 시스템 순위 1, 2위를 석권하며 압도적인 기술력을 자랑했습니다. 팀별로 최대 4개 기술까지 제출이 가능해 총 28개 팀, 92개 시스템이 출전한 가운데 ETRI 기술들은 최고의 성적을 차지하며 팀 순위 1위를 달성할 수 있었습니다. 팀 순위 2등은 조지아텍-중국과기대-텐센트-UEK 연합팀이 차지했다.

뛰어난 성능, 어떻게 가능했나

개발한 기술은 노약자 및 청각 장애인 등을 위한 '위험 회피 기술' 분야로 응용이 가능합니다. 소리를 잘 듣지 못해 상황을 인식하지 못하는 계층을 위해 따뜻한 기술로 활약할 수 있는 셈입니다. 이외에도 소리를 듣고 관련 정보를 도출해내는 미디어 자동 태깅 기술, 자동차, 공장 라인 소리를 듣고 이상 유무를 알아내는 장비 상태 모니터링, 로봇 등 다양한 분야로 활용도 예상됩니다.

위험 소리 인식 시스템의 방법
소리를 잘 듣지 못해 상황을 인식하지 못하는 계층을 위해 따뜻한 기술로 활약할 수 있다. 출처: pixabay

연구진은 우수한 성적의 비결로 소리를 주파수 대역별로 나누어 모델이 각각 학습을 할 수 있도록 만든 '딥러닝 기반 트라이던트(Trident) 구조 신경망 개발', 단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닐 수 있는 '비균등 입력 특징 분할 기법'을 설계, 적용한 점을 들었습니다. 덕분에 전년도보다 어려워진 과제를 능숙하게 대처하고 학습에 사용된 단말뿐 아니라 새로운 단말의 음향 데이터를 접했을 때도 다른 참가팀들에 비해 앞서는 성능을 낼 수 있었습니다.

한편, 연구진은 수행 중인 과제와 관련해 '저복잡도 기반 음향 장면 인식', '음향 발생 방향 및 이벤트 인식'분야에도 참가, 좋은 성적을 거뒀습니다. 입상한 팀은 추가 성능 분석 결과를 포함하여 학회 논문 제출 및 발표를 진행할 예정입니다. ETRI 김흥묵 미디어연구본부장은 "딥러닝 기반 음향 인식 기술은 향후 새로운 응용 서비스 기술 개발을 통해 국내 관련 산업의 경쟁력 확보와 시장 활성화에 크게 기여할 것"이라고 말했습니다.

연구진은 AI가 시각, 언어 인식 등의 분야에서는 인간을 상회하는 수준으로 연구가 이뤄진 것에 비해, 청각 분야에서는 아직 갈 길이 먼 상황에서 '전자 귀'와 같은 모든 음향을 인식할 수 있는 수준으로 목표로 연구개발 중입니다. 

이번 대회는 ETRI 미디어부호화연구실 서상원 연구원, 박수영 연구원, 정영호 책임연구원이 공동으로 참여했으며 과학기술정보통신부 『신체기능의 이상이나 저하를 극복하기 위한 휴먼 청각 및 근력 증강 원천 기술 개발』 과제의 일환으로 연구를 진행했습니다. 연구진은 본 기술과 관련하여 지난 2017년부터 국내·외 특허 17건 출원, 기술 논문 11건을 발표하기도 했습니다. 

저작권자 © 이웃집과학자 무단전재 및 재배포 금지

KR101670801B1 - 이상 음원 감지 방법 및 시스템 - Google Patents

이상 음원 감지 방법 및 시스템 Download PDF

Info

Publication numberKR101670801B1 KR101670801B1 KR1020150048957A KR20150048957A KR101670801B1 KR 101670801 B1 KR101670801 B1 KR 101670801B1 KR 1020150048957 A KR1020150048957 A KR 1020150048957A KR 20150048957 A KR20150048957 A KR 20150048957A KR 101670801 B1 KR101670801 B1 KR 101670801B1AuthorityKRSouth KoreaPrior art keywordssound sourceabnormal soundsectionabnormalgeneratedPrior art date2015-04-07Application numberKR1020150048957AOther languages English (en) Other versions KR20160120018A (koInventor김현돈Original Assignee주식회사 에스원Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)2015-04-07Filing date2015-04-07Publication date2016-10-31 2015-04-07 Application filed by 주식회사 에스원 filed Critical 주식회사 에스원 2015-04-07 Priority to KR1020150048957A priority Critical patent/KR101670801B1/ko 2016-10-17 Publication of KR20160120018A publication Critical patent/KR20160120018A/ko 2016-10-31 Application granted granted Critical 2016-10-31 Publication of KR101670801B1 publication Critical patent/KR101670801B1/ko

Links

  • Espacenet
  • Global Dossier
  • Discuss
  • 230000002159 abnormal effect Effects 0.000 title claims abstract description 116
  • 230000003595 spectral Effects 0.000 claims abstract description 14
  • 238000001228 spectrum Methods 0.000 claims description 13
  • 230000000875 corresponding Effects 0.000 claims description 12
  • 239000000203 mixture Substances 0.000 claims description 8
  • 206010057190 Respiratory tract infection Diseases 0.000 claims description 7
  • 239000000284 extract Substances 0.000 claims description 4
  • 230000005534 acoustic noise Effects 0.000 abstract description 2
  • 238000009434 installation Methods 0.000 abstract description 2
  • 238000001514 detection method Methods 0.000 description 17
  • 238000004364 calculation method Methods 0.000 description 15
  • 206010039740 Screaming Diseases 0.000 description 6
  • 238000010586 diagram Methods 0.000 description 6
  • 230000000694 effects Effects 0.000 description 2
  • 230000003287 optical Effects 0.000 description 2
  • 210000003284 Horns Anatomy 0.000 description 1
  • 210000001260 Vocal Cords Anatomy 0.000 description 1
  • 238000004458 analytical method Methods 0.000 description 1
  • 230000005540 biological transmission Effects 0.000 description 1
  • 239000000969 carrier Substances 0.000 description 1
  • 238000010276 construction Methods 0.000 description 1
  • 238000001914 filtration Methods 0.000 description 1
  • 239000002184 metal Substances 0.000 description 1
  • 238000000034 method Methods 0.000 description 1
  • 230000001151 other effect Effects 0.000 description 1
  • 230000001568 sexual Effects 0.000 description 1

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed circuit television systems, i.e. systems in which the signal is not broadcast

Abstract

본 발명은 이상 음원 감지 방법 및 시스템에 관한 것으로, 본 발명에 따른 방법은 소리 데이터를 입력받는 단계, 입력된 소리 데이터의 소정 구간에 대해 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하는 단계, 그리고 구간에 이상 음원이 발생한 것으로 예비 판정된 경우, 구간의 소리 데이터에서 추출된 특징값을 이상 음원 음향 모델과 비교하여 이상 음원 발생 여부를 최종 판정하는 단계를 포함한다. 본 발명에 의하면 비교적 가벼운 알고리즘을 이용하여 1차적으로 이상 음원 발생 여부를 판정하고, 이상 음원으로 예비 판정된 구간에 대해서만 2차적으로 음향 모델을 이용하여 정밀하게 판단함으로써 오보를 줄이면서 시스템 처리 부하는 크게 줄임으로써 수십, 수백개의 감시 장소에 대해 실시간으로 모니터링이 가능한 장점이 있다. 또한 일반 상용의 마이크로폰 내장 IP 카메라를 이용할 경우 별도의 장치 설비가 불필요하여 구축 비용을 절감할 수 있는 장점이 있다.

Description

이상 음원 감지 방법 및 시스템{ABNORMAL VOICE DETECTING METHOD AND SYSTEM}

본 발명은 이상 음원 감지 방법 및 시스템에 관한 것으로, 보다 자세하게는 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하고, 이상 음원 음향 모델을 이용하여 이상 음원 발생 여부를 최종 판정하는 이상 음원 감지 방법 및 시스템에 관한 것이다.

최근 들어 지능형 감시 IP 카메라가 급속도로 보급되고 있으며, 특히 지능형 영상 통합 모니터링 시스템(SVMS: Smart Video Management System)에 의해서 수많은 IP 카메라로부터 영상 데이터를 자동으로 수집/분석/가공하여 이용하는 보안 감시 모니터링이 일반적으로 이용되고 있다.

그런데 엘리베이터 내에서 이루어지는 은밀한 성폭행/성희롱의 경우 지능형 영상 감시에 의한 이벤트 감지로는 한계가 있었다. 이로 인해 최근 들어 마이크가 내장된 IP 카메라를 통하여 스트리밍되는 소리 데이터를 분석하여 비명과 같은 긴급 발성, 즉 이상 음원을 검출하는 기능에 대한 요구가 많아지고 있다.

기존 IP 카메라에 의한 이상 음원 감지 알고리즘은 소리 세기 및 음량 급상승 또는 급하강에 기반한 단순 음성 신호 패턴 검출에 의하는 경우와, 음향 모델에 기반하여 특징 값을 추출하고 인식을 수행하는 경우로 크게 나뉘어질 수 있다.

그런데 첫 번째 음성 신호 패턴 검출 방식은 알고리즘이 단순하고 계산량이 작아 임베디드형 IP 카메라에 내장되거나 VMS(Video Management Software)와 같은 영상 감시 서버에서도 동시에 많은 채널을 운용할 수 있으나 비명 유사 소음에 대한 오보가 많은 문제점이 있었다. 그리고 두 번째 음향 모델에 기반한 알고리즘은 오보에 대한 변별 성능은 뛰어나지만 상대적으로 알고리즘이 무겁고 계산량이 많아 수십 ~ 수백 개의 채널을 VMS에서 동시에 운용하기에는 무리가 있었다.

따라서, 본 발명이 해결하고자 하는 기술적 과제는 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하고, 이상 음원 음향 모델을 이용하여 이상 음원 발생 여부를 최종 판정하는 이상 음원 감지 방법 및 시스템을 제공하는 것이다.

또한, 본 발명은 명시적으로 언급된 목적 이외에도, 후술하는 본 발명의 구성으로부터 달성될 수 있는 다른 목적도 포함한다.

상기한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 이상 음원 감지 방법은 소리 데이터를 입력받는 단계, 상기 입력된 소리 데이터의 소정 구간에 대해 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하는 단계, 그리고 상기 구간에 이상 음원이 발생한 것으로 예비 판정된 경우, 상기 구간의 소리 데이터에서 추출된 특징값을 인식대상인 이상 음원에 해당하는 소리에 대한 특징 벡터 모델로 이루어지는 이상 음원 음향 모델과 비교하여 이상 음원 발생 여부를 최종 판정하는 단계를 포함한다.
상기 이상 음원 발생 여부를 예비 판정하는 단계는, 상기 구간의 소리 데이터에 대해서, 고에너지 프레임 개수, 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량 및 고음 피치 성분 비율 중 둘 이상을 계산하는 단계, 그리고 상기 고에너지 프레임 개수, 상기 밴드 위치 변화량 및 상기 고음 피치 성분 비율 중 둘 이상을 가우시안 혼합 모델(Gaussian Mixture Model)에 입력하여 상기 구간의 이상 음원 발생 여부를 예비 판정하는 단계를 포함한다.
상기 이상 음원 발생 여부를 최종 판정하는 단계는, 상기 이상 음원이 발생한 것으로 예비 판정된 구간의 소리 데이터에서 MFCC(Mel-Frequency Cepstral Coefficients) 특징값을 추출하는 단계, 그리고 상기 MFCC 특징값을 상기 이상 음원 음향 모델과 비교하여 이상 음원 여부를 최종 판정하는 단계를 포함한다.
상기 고에너지 프레임 개수는 상기 구간의 소리 데이터에서 일정 문턱 값 이상의 에너지를 가지는 프레임 개수이고, 상기 고음 피치 성분 비율은 상기 구간의 소리 데이터에서 미리 정해진 기본 주파수보다 높은 주파수 성분을 가지는 소리 데이터의 비율일 수 있다.

삭제

삭제

상기한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 이상 음원 감지 시스템은 음성 획득부에서 획득되어 입력된 소리 데이터의 소정 구간에 대해 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하는 예비 판정부, 그리고 상기 구간에 이상 음원이 발생한 것으로 예비 판정된 경우, 상기 구간의 소리 데이터에서 추출된 특징값을 인식대상인 이상 음원에 해당하는 소리에 대한 특징 벡터 모델로 이루어지는 이상 음원 음향 모델과 비교하여 이상 음원 여부를 최종 판정하는 최종 판정부를 포함한다.
상기 예비 판정부는, 상기 구간의 소리 데이터에 대해서, 고에너지 프레임 개수, 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량 및 고음 피치 성분 비율 중 둘 이상을 계산하고, 상기 고에너지 프레임 개수, 상기 밴드 위치 변화량 및 상기 고음 피치 성분 비율 중 둘 이상을 가우시안 혼합 모델(Gaussian Mixture Model)에 입력하여 상기 구간의 이상 음원 발생 여부를 예비 판정할 수 있다.
상기 최종 판정부는, 상기 이상 음원이 발생한 것으로 예비 판정된 구간의 소리 데이터에서 MFCC(Mel-Frequency Cepstral Coefficients) 특징값을 추출하고, 상기 MFCC 특징값을 상기 이상 음원 음향 모델과 비교하여 이상 음원 여부를 최종 판정할 수 있다.
상기 이상 음원은 사람의 비명 소리일 수 있다.

삭제

삭제

삭제

상기 예비 판정부는, 다수의 음성 취득부로부터 각각 입력되는 다수의 소리 데이터에 대해서 상기 이상 음원 발생 여부에 대한 예비 판정을 동시에 수행할 수 있다.

본 발명에 의하면 비교적 가벼운 알고리즘을 이용하여 1차적으로 이상 음원 발생 여부를 판정하고, 이상 음원으로 예비 판정된 구간에 대해서만 2차적으로 음향 모델을 이용하여 정밀하게 판단함으로써 오보를 줄이면서 시스템 처리 부하는 크게 줄임으로써 수십, 수백개의 감시 장소에 대해 실시간으로 모니터링이 가능한 장점이 있다.

또한 일반 상용의 마이크로폰 내장 IP 카메라를 이용할 경우 별도의 장치 설비가 불필요하여 구축 비용을 절감할 수 있는 장점이 있다.

한편, 본 발명의 효과는 상술된 것에 국한되지 않고 후술하는 본 발명의 구성으로부터 도출될 수 있는 다른 효과도 본 발명의 효과에 포함된다.

도 1은 본 발명의 일 실시예에 따른 이상 음원 감지 시스템을 설명하기 위해 제공되는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 이상 음원 감지 시스템의 동작을 설명하기 위해 제공되는 흐름도이다.
도 3은 도 1에 예시한 예비 판정부의 구성을 설명하기 위해 제공되는 블록도이다.
도 4는 도 1에 예시한 최종 판정부의 구성을 설명하기 위해 제공되는 블록도이다.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 이상 음원 감지 시스템을 설명하기 위해 제공되는 블록도이다.

도 1을 참고하면, 본 발명에 따른 이상 음원 감지 시스템은 복수의 소리 획득부(100a, 100b, …, 100n) 및 이상 음원 감지 장치(200)를 포함할 수 있다.

소리 획득부(100a, 100b, …, 100n)는 이상 음원 감지 장치(200)와 통신망(10)을 통해 연결되어 각종 정보 및 데이터를 교환할 수 있다.

통신망(10)은 구내 정보 통신망(Local Area Network, LAN), 도시권 통신망(Metropolitan Area Network, MAN), 광역 통신망(Wide Area Network, WAN), 인터넷(internet), 3G(generation)/4G(generation) 이동통신망, 와이파이(Wi-Fi), WIBRO(Wireless Broadband Internet) 또는 LTE(Long Term Evolution) 등을 포함하는 각종 데이터 통신망을 포함할 수 있고, 유선과 무선을 가리지 않으며 어떠한 통신 방식을 사용하더라도 상관없다.

소리 획득부(100a, 100b, …, 100n)는 엘리베이터(도시하지 않음) 내부에 설치되어 엘리베이터 내에서 발생되는 소리를 획득하는 기능을 수행할 수 있다. 물론 소리 획득부(100a, 100b, …, 100n)는 엘리베이터 외에도 사람의 비명 소리 등과 같은 이상 음원의 발생 여부를 감시하기 위한 장소에 설치될 수 있다.

소리 획득부(100a, 100b, …, 100n)는 주변에서 발생된 소리를 전기 펄스로 변환할 수 있는 마이크로폰(microphone)을 포함할 수 있으며, 획득된 소리를 디지털 또는 아날로그 신호로 변환한 소리 데이터를 통신망(10)을 통해 이상 음원 감지 장치(200)로 전송할 수 있다.

소리 획득부(100a, 100b, …, 100n)는 마이크로폰이 IP 카메라에 내장된 형태로 구현될 수 있으나, 실시예에 따라서 IP 카메라와 별개로 소리 데이터를 획득하여 이상 음원 감지 장치(200)로 전송하는데 필요한 구성만 포함되게 구현된 장치가 이용될 수도 있다.

이상 음원 감지 장치(200)는 소리 획득부(100a, 100b, …, 100n)에서 전송되어 입력된 소리 데이터를 분석하여 이상 음원 발생 여부를 판정하는 기능을 수행한다. 여기서 이상 음원은 사람의 비명 소리일 수 있다. 물론 비명 소리 외에도 소리 획득부(100a, 100b, …, 100n)가 설치된 장소에서 모니터링 하고자 하는 특정 상황과 관련된 소리를 포함할 수 있다. 예컨대 차량 경적, 차량 충돌이나 유리창 깨지는 소리 등도 이상 음원에 포함될 수 있다.

이상 음원 감지 장치(200)는 소리 데이터의 소정 구간에 대해 이상 음원 발생 여부를 비교적 가벼운 알고리즘을 예비 판정하고, 이상 음원 발생으로 예비 판정된 소리 데이터의 구간에 대해서는 예비 판정 알고리즘보다는 부하는 더 크지만 정확도가 높은 알고리즘을 통해 이상 음원 발생 여부를 최종 판정할 수 있다.

이를 위해 이상 음원 감지 장치(200)는 예비 판정부(210)와 최종 판정부(220)를 포함할 수 있다.

예비 판정부(210)는 소리 획득부(100a, 100b, …, 100n)에서 전송되어 입력된 소리 데이터를 일정 구간별로 나누어 이상 음원 발생 여부를 예비 판정할 수 있다. 여기서 소리 데이터는 1초 구간 단위로 나누어 처리될 수 있으나, 실시예에 따라서 소리 데이터를 나누는 구간 단위는 1초보다 크게 하거나 작게 설정하는 것도 가능하다.

예비 판정부(210)는 미리 정해진 구간 단위로 나누어진 소리 데이터에 대해 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정할 수 있다. 이에 대해서는 아래에서 보다 자세히 설명한다. 예비 판정부(210)는 이상 음원 발생 여부를 비교적 가벼운 알고리즘을 예비 판정하기 때문에 시스템에 미치는 부하가 작으므로 다수의 소리 획득부(100a, 100b, …, 100n)에서 전송되어 입력된 소리 데이터에 대해서 이상 음원 발생 여부에 대한 예비 판정을 동시에 병렬로 수행할 수 있다.

최종 판정부(220)는 예비 판정부(210)에서 이상 음원이 발생한 것으로 예비 판정된 구간의 소리 데이터에서 특징값을 추출하여 이상 음원 음향 모델과 비교하여 이상 음원 발생 여부를 최종 판정한다.

이상 음원 감지 장치(200)는 최종 판정부(220)에서 이상 음원이 발생한 것으로 최종 판정된 경우 이상 음원 발생 경보를 출력할 수 있다. 예컨대 이상 음원 감지 장치(200)에 모니터, 스피커 등과 같은 출력 장치(도시하지 않음)가 구비된 경우에는 해당 출력 장치를 통해 경보를 출력할 수 있다. 이상 음원 발생 경보에는 이상 음원이 발생된 장소에 설치된 소리 획득부(100a, 100b, …, 100n)에 대한 식별 정보 또는 위치 정보도 함께 출력됨으로써 관리자가 적절한 조치를 취하도록 할 수 있다. 물론 이상 음원 감지 장치(200)가 원격에 위치한 서버(도시하지 않음) 또는 관리자 단말(도시하지 않음)에 유선 또는 무선으로 이상 음원 발생 경보 메시지를 전송하는 것도 가능하다.

그러면 이하 도 2 내지 도 4를 참고하여 본 발명에 따른 이상 음원 감지 시스템의 동작에 대해 보다 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 이상 음원 감지 시스템의 동작을 설명하기 위해 제공되는 흐름도이고, 도 3은 도 1에 예시한 예비 판정부의 구성을 설명하기 위해 제공되는 블록도이며, 도 4는 도 1에 예시한 최종 판정부의 구성을 설명하기 위해 제공되는 블록도이다.

먼저 이상 음원 감지 장치(200)는 소리 획득부(100a, 100b, …, 100n)에서 획득되어 전송되는 소리 데이터를 입력받을 수 있다(S210).

다음으로 이상 음원 감지 장치(200)에서 예비 판정부(210)는 스펙트럼 밴드 에너지 기반으로 소리 데이터를 일정 구간별로 나누어 이상 음원 발생 여부를 예비 판정할 수 있다(S220).

도 3을 참고하면, 예비 판정부(210)는 프레임 에너지 계산 모듈(211), 푸리에 변환 모듈(213), 스펙트럼 밴드 에너지 계산 모듈(215), 피치 계산 모듈(217) 및 예비 판정 모듈(219)을 포함할 수 있다.

프레임 에너지 계산 모듈(211)은 소리 데이터의 해당 구간 내에서 일정 문턱 값 이상의 에너지를 가지는 고에너지 프레임 개수를 계산할 수 있다. 고에너지 프레임 개수는 해당 소리 데이터 구간의 이상 음원 발생 여부 판단을 위한 가우시안 혼합 모델(Gaussian Mixture Model)(GMM) 특징 값의 하나로 사용될 수 있다.

푸리에 변환 모듈(213)은 소리 데이터를 주파수 영역 분석을 위해 고속 푸리에 변환(Fast Fourier Transform)(FFT) 등과 같은 푸리에 변환 처리를 할 수 있다.

스펙트럼 밴드 에너지 계산 모듈(215)은 푸리에 변환 처리된 소리 데이터의 전체 주파수 영역(0~4kHz)을 소정 개수, 예컨대 21개 밴드로 나누고 각 밴드에 해당하는 스펙트럼 에너지를 계산한다. 일반적으로 비명과 같이 극도로 긴장하고 흥분된 상태에서 발성된 고성의 경우 고주파의 스펙트럼 에너지가 높아지는 특성이 있으므로 이를 이용하여 아래와 같이 구해지는 특징 값을 가우시안 혼합 모델에서 비명 판정에 적용할 수 있다.

일반 대화 소리나 환경 소음과는 달리 동일한 화자가 1초 이상의 연속된 고성을 비명으로 정의한 경우, 비명 소리는 1초 구간 동안 음의 고저가 일정한 특징을 가지게 된다. 따라서 비명의 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치의 변화량이 비명 소리의 경우 일정한 특징을 가지게 되고, 반대로 일반 소리의 경우는 일반적으로 변화량이 크게 된다.

삭제

스펙트럼 밴드 에너지 계산 모듈(215)은 해당 구간의 소리 데이터에 대해 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량을 구할 수 있다. 가령 소리 데이터 구간을 1초로 한 경우, 1초 구간에서 최대 스펙트럼 밴드 에너지를 가지는 밴드 번호 중 가장 낮은 번호가 5번이고, 가장 높은 밴드 번호가 20번인 경우 밴드 번호의 변화량 15가 밴드 위치 변화량으로 이용될 수 있다. 물론 실시예에 따라서 1초 구간의 시작 프레임에서의 최대 스펙트럼 밴드 에너지의 밴드 번호와 마지막 프레임에서의 최대 스펙트럼 밴드 에너지의 밴드 번호의 변화량을 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량으로 이용하는 것도 가능하다. 또한 1초 구간에서 전후 프레임간 최대 스펙드럼 밴드 에너지를 가지는 밴드 위치 차이 평균값도 밴드 위치 변화량으로 이용 가능하다.

삭제

피치 계산 모듈(217)은 해당 구간의 소리 데이터의 고음 피치 성분 비율을 계산할 수 있다. 피치(pitch)는 사람의 성대에서 나오는 기본 주파수(Fundamental Frequency)로서, 비명일 경우 일반 대화보다 저음(낮은 주파수 대역의 소리) 대비 고음(높은 주파수 대역의 소리)의 피치 성분이 높으므로 이를 이용하여 고음의 소음을 걸러내는데 효과가 있다. 피치 계산 모듈(217)에서 피치 성분 중에서 고음으로 판단하는 기준은 미리 설정될 수 있다.

예비 판정 모듈(219)은 고에너지 프레임 개수, 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량 및 고음 피치 성분 비율 중 둘 이상을 가우시안 혼합 모델(Gaussian Mixture Model)에 입력하여 해당 소리 데이터 구간의 이상 음원 발생 여부를 예비 판정할 수 있다.

다시 도 2를 참고하면, 이상 음원 감지 장치(200)는 이상 음원으로 예비 판정된 소리 데이터 구간이 있는 경우(S230-Y), 최종 판정부(220)가 해당 소리 데이터 구간에 대해서 음향 모델 기반으로 이상 음원 발생 여부를 최종 판정한다(S240).

도 4를 참고하면, 최종 판정부(220)는 MFCC 계산 모듈(221) 및 최종 판정 모듈(223)을 포함할 수 있다.

MFCC 계산 모듈(221)은 이상 음원이 발생한 것으로 예비 판정된 구간의 소리 데이터에서 MFCC(Mel-Frequency Cepstral Coefficients) 특징값을 추출할 수 있다. MFCC는 음성인식에 주로 쓰이는 알고리즘으로, 사람의 청각 시스템에 기반하여 주파수를 나누어 계수를 구한 것이다.

최종 판정 모듈(223)은 이상 음원에 대한 음향 모델, 예컨대 비명 소리에 대한 비명 음향 모델과 MFCC 특징값을 비교하여 이상 음원 발생 여부를 최종 판정한다. 이상 음원 음향 모델은 인식대상인 이상 음원에 해당하는 소리에 대한 특징 벡터 모델로 이루어질 수 있다.

한편 지금까지 소리 획득부(100a, 100b, …, 100n)에서 획득되어 전송되는 소리 데이터를 구간 별로 나누어 이상 음원 감지 장치(200)에 포함된 예비 판정부(210)에서 예비 판정하는 것으로 설명하였으나, 실시예에 따라 이상 음원 감지 장치(200)에서는 이상 음원 발생에 대한 최종 판정만을 수행하고, 예비 판정은 소리 획득부(100a, 100b, …, 100n) 측에서 이루어지도록 구현하는 것도 가능하다.

예비 판정은 비교적 가벼운 알고리즘에 의해 수행되므로, 예비 판정부(210)에 대응하는 모듈을 소리 획득부(100a, 100b, …, 100n)에 포함시킬 수 있다. 그리고 이상 음원 감지 장치(200)에서는 예비 판정부(210)를 포함시키지 않을 수 있다. 이 경우 소리 획득부(100a, 100b, …, 100n)는 이상 음원으로 예비 판정된 구간의 소리 데이터만 이상 음원 감지 장치(200)에 전송하여 최종 판정을 하도록 구현할 수 있다.

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 이상 음원 감지 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

100a, 100b, …, 100n: 소리 획득부 200: 이상 음원 감지 장치
210: 예비 판정부 211: 프레임 에너지 계산 모듈
213: 푸리에 변환 모듈 215: 스펙트럼 밴드 에너지 계산 모듈
217: 피치 계산 모듈 219: 예비 판정 모듈
220: 최종 판정부 221: MFCC 계산 모듈
223: 최종 판정 모듈

Claims (10)

  1. 소리 데이터를 입력받는 단계,
    상기 입력된 소리 데이터의 소정 구간에 대해 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하는 단계, 그리고
    상기 구간에 이상 음원이 발생한 것으로 예비 판정된 경우, 상기 구간의 소리 데이터에서 추출된 특징값을 인식대상인 이상 음원에 해당하는 소리에 대한 특징 벡터 모델로 이루어지는 이상 음원 음향 모델과 비교하여 이상 음원 발생 여부를 최종 판정하는 단계
    를 포함하고,
    상기 이상 음원 발생 여부를 예비 판정하는 단계는,
    상기 구간의 소리 데이터에 대해서, 고에너지 프레임 개수, 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량 및 고음 피치 성분 비율 중 둘 이상을 계산하는 단계, 그리고
    상기 고에너지 프레임 개수, 상기 밴드 위치 변화량 및 상기 고음 피치 성분 비율 중 둘 이상을 가우시안 혼합 모델(Gaussian Mixture Model)에 입력하여 상기 구간의 이상 음원 발생 여부를 예비 판정하는 단계
    를 포함하며,
    상기 이상 음원 발생 여부를 최종 판정하는 단계는,
    상기 이상 음원이 발생한 것으로 예비 판정된 구간의 소리 데이터에서 MFCC(Mel-Frequency Cepstral Coefficients) 특징값을 추출하는 단계, 그리고
    상기 MFCC 특징값을 상기 이상 음원 음향 모델과 비교하여 이상 음원 여부를 최종 판정하는 단계
    를 포함하고,
    상기 고에너지 프레임 개수는 상기 구간의 소리 데이터에서 일정 문턱 값 이상의 에너지를 가지는 프레임 개수이고,
    상기 고음 피치 성분 비율은 상기 구간의 소리 데이터에서 미리 정해진 기본 주파수보다 높은 주파수 성분을 가지는 소리 데이터의 비율인 이상 음원 감지 방법.

  2. 제 1 항에서,
    상기 이상 음원은 사람의 비명 소리인 이상 음원 감지 방법.

  3. 제 1 항에서,
    다수의 음성 취득부로부터 각각 입력되는 다수의 소리 데이터에 대해서 상기 이상 음원 발생 여부에 대한 예비 판정을 동시에 수행하는 이상 음원 감지 방법.

  4. 음성 획득부에서 획득되어 입력된 소리 데이터의 소정 구간에 대해 스펙트럼 밴드 에너지 기반으로 이상 음원 발생 여부를 예비 판정하는 예비 판정부, 그리고
    상기 구간에 이상 음원이 발생한 것으로 예비 판정된 경우, 상기 구간의 소리 데이터에서 추출된 특징값을 인식대상인 이상 음원에 해당하는 소리에 대한 특징 벡터 모델로 이루어지는 이상 음원 음향 모델과 비교하여 이상 음원 여부를 최종 판정하는 최종 판정부
    를 포함하고,
    상기 예비 판정부는,
    상기 구간의 소리 데이터에 대해서, 고에너지 프레임 개수, 최대 스펙트럼 밴드 에너지를 가지는 밴드 위치 변화량 및 고음 피치 성분 비율 중 둘 이상을 계산하고,
    상기 고에너지 프레임 개수, 상기 밴드 위치 변화량 및 상기 고음 피치 성분 비율 중 둘 이상을 가우시안 혼합 모델(Gaussian Mixture Model)에 입력하여 상기 구간의 이상 음원 발생 여부를 예비 판정하며,
    상기 최종 판정부는,
    상기 이상 음원이 발생한 것으로 예비 판정된 구간의 소리 데이터에서 MFCC(Mel-Frequency Cepstral Coefficients) 특징값을 추출하고,
    상기 MFCC 특징값을 상기 이상 음원 음향 모델과 비교하여 이상 음원 여부를 최종 판정하며,
    상기 고에너지 프레임 개수는 상기 구간의 소리 데이터에서 일정 문턱 값 이상의 에너지를 가지는 프레임 개수이고,
    상기 고음 피치 성분 비율은 상기 구간의 소리 데이터에서 미리 정해진 기본 주파수보다 높은 주파수 성분을 가지는 소리 데이터의 비율인 이상 음원 감지 시스템.

  5. 제 6 항에서,
    상기 이상 음원은 사람의 비명 소리인 이상 음원 감지 시스템.

  6. 제 6 항에서,
    상기 예비 판정부는,
    다수의 음성 취득부로부터 각각 입력되는 다수의 소리 데이터에 대해서 상기 이상 음원 발생 여부에 대한 예비 판정을 동시에 수행하는 이상 음원 감지 시스템.

KR1020150048957A 2015-04-07 2015-04-07 이상 음원 감지 방법 및 시스템 KR101670801B1 (ko)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
KR1020150048957A KR101670801B1 (ko) 2015-04-07 2015-04-07 이상 음원 감지 방법 및 시스템

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
KR1020150048957A KR101670801B1 (ko) 2015-04-07 2015-04-07 이상 음원 감지 방법 및 시스템

Publications (2)

Publication NumberPublication Date
KR20160120018A KR20160120018A (ko) 2016-10-17
KR101670801B1 true KR101670801B1 (ko) 2016-10-31

Family

ID=57250224

Family Applications (1)

Application NumberTitlePriority DateFiling Date
KR1020150048957A KR101670801B1 (ko) 2015-04-07 2015-04-07 이상 음원 감지 방법 및 시스템

Country Status (1)

CountryLink
KR (1) KR101670801B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP6726082B2 (ja) * 2016-10-24 2020-07-22 株式会社アニモ 防犯に関わる音の判定方法及び情報処理装置
KR102374144B1 (ko) * 2020-03-27 2022-03-15 아이브스 주식회사 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
KR101251373B1 (ko) * 2011-10-27 2013-04-05 한국과학기술연구원 음원 분류 장치 및 그 방법
  • 2015
    • 2015-04-07 KR KR1020150048957A patent/KR101670801B1/ko active IP Right Grant

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
KR101251373B1 (ko) * 2011-10-27 2013-04-05 한국과학기술연구원 음원 분류 장치 및 그 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chan, Cheung-Fat, and Eric WM Yu. "An abnormal sound detection and classification system for surveillance applications." Signal Processing Conference, 2010 18th European. IEEE, 2010.
Ito, Akinori, et al. "Detection of abnormal sound using multi-stage GMM for surveillance microphone." Information Assurance and Security, 2009. IAS'09. Fifth International Conference on. Vol. 1. IEEE,

Also Published As

Publication numberPublication date
KR20160120018A (ko) 2016-10-17

Similar Documents

PublicationPublication DateTitle
EP2670165B1 (en) 2016-10-05 A microphone array system and method for sound acquistion
US20150043737A1 (en) 2015-02-12 Sound detecting apparatus, sound detecting method, sound feature value detecting apparatus, sound feature value detecting method, sound section detecting apparatus, sound section detecting method, and program
CN109616140B (zh) 2022-08-30 一种异常声音分析系统
JP6344383B2 (ja) 2018-06-20 行動解析装置、行動解析方法および行動解析プログラム
KR101807616B1 (ko) 2017-12-11 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
KR101748276B1 (ko) 2017-06-16 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
JP2009008823A (ja) 2009-01-15 音響認識装置、音響認識方法、及び、音響認識プログラム
CN111223261B (zh) 2020-10-27 一种复合智能生产安防系统及其安防方法
KR101670801B1 (ko) 2016-10-31 이상 음원 감지 방법 및 시스템
KR101250668B1 (ko) 2013-04-03 Gmm을 이용한 응급 단어 인식 방법
JP2014126856A (ja) 2014-07-07 雑音除去装置及びその制御方法
KR101899436B1 (ko) 2018-09-17 비명인식 기반 안전감지센서
KR101681188B1 (ko) 2016-12-02 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
US20110208516A1 (en) 2011-08-25 Information processing apparatus and operation method thereof
KR101736466B1 (ko) 2017-05-16 음향 정보 기반 상황 인식 장치 및 방법
Colonna et al. 2016 A framework for chainsaw detection using one-class kernel and wireless acoustic sensor networks into the amazon rainforest
US8838445B1 (en) 2014-09-16 Method of removing contamination in acoustic noise measurements
KR20150144640A (ko) 2015-12-28 이상음원 판단장치 및 방법
KR20160097999A (ko) 2016-08-18 위험 상황을 인식하는 음향 감시 방법
JP4859130B2 (ja) 2012-01-25 監視システム
CN112466276A (zh) 2021-03-09 一种语音合成系统训练方法、装置以及可读存储介质
JP2013235050A (ja) 2013-11-21 情報処理装置及び方法、並びにプログラム
KR20150144636A (ko) 2015-12-28 이상음원 위치 추적 시스템 및 방법
Uzkent et al. 2011 Pitch-range based feature extraction for audio surveillance systems
KR101882309B1 (ko) 2018-07-26 음성인식을 이용한 보안등 및 보안시스템
DateCodeTitleDescription
2016-10-11 E701 Decision to grant or registration of patent right
2016-10-25 GRNT Written decision to grant