Noise Meter - Вступ до придушення шуму
Зрозумівши основні відмінності між придушенням шуму (придушенням навколишнього шуму динаміка, щоб віддалені слухачі могли його чітко чути) та активним зменшенням шуму (компенсація власного шуму навколишнього середовища слухача), давайте зосередимося на тому, як досягти придушення шуму.
Одним із методів є використання кількох мікрофонів для придушення даних. Збір даних із кількох місць призведе до того, що пристрої отримуватимуть схожі (але все ще відмінні) сигнали. Голосовий сигнал, отриманий мікрофоном поблизу тих, хто розмовляє, значно сильніший, ніж сигнал додаткового мікрофона. Два мікрофони отримуватимуть неголосовий фоновий звук із однаковою силою сигналу. Відніміть інформацію про звук, зібрану мікрофоном із сильним голосом і додатковим мікрофоном, і решта більшості буде голосовою інформацією. Що більша відстань між мікрофонами, то більша різниця сигналів між ближчими та дальніми мікрофонами, що полегшує використання цього простого алгоритму для придушення шуму. Однак, коли ви не розмовляєте або очікуєте, що голосові дані з часом зміняться (наприклад, коли ви йдете або бігаєте, а ваш телефон продовжує тремтіти), ефективність цього методу зменшиться. Багатомікрофонне придушення шуму, безумовно, є надійним, але є недоліки додаткового апаратного забезпечення та обробки.
А що, якби був лише один мікрофон? Якщо додаткові джерела звуку не використовуються для перевірки/порівняння, рішення з одним мікрофоном покладатиметься на розуміння отриманих характеристик шуму та їх фільтрацію. Це пов’язано з наведеними раніше визначеннями сталого та нестаціонарного шуму. Стаціонарний шум можна ефективно відфільтрувати за допомогою алгоритмів DSP, у той час як нестаціонарний шум створює проблему, глибокі нейронні мережі (DNN) можуть допомогти вирішити проблему.
Цей метод потребує набору даних для навчання мережі. Цей набір даних складається з різних (стаціонарних і нестаціонарних) шумів і чіткого мовлення, створюючи синтезовану шумову модель мовлення. Подайте набір даних як вхідні дані для DNN і виведіть його чітким голосом. Це створить модель нейронної мережі, яка усуває шум і виводить лише чітку мову.
Навіть з навченими DNN все ще є деякі проблеми та показники, які слід враховувати. Якщо ви хочете працювати в реальному часі з низькою затримкою, вам потрібна потужна процесорна потужність або менший DNN. Чим більше параметрів у DNN, тим нижча швидкість його роботи. Частота дискретизації аудіо так само впливає на придушення звуку. Вища частота дискретизації означає, що DNN потрібно обробляти більше параметрів, але, у свою чергу, він досягне вищої якості виходу. Вузькосмуговий голосовий зв'язок є ідеальним вибором для придушення шуму в реальному часі.
