Нормализация против сжатия
Нормализация - это не то, чего вы пытаетесь достичь. Если вы говорите, что видео дорожка имеет разные уровни громкости, нормализация максимизирует общую амплитуду всех частей одновременно, так что самая громкая часть (пик) достигает 0 дБ или меньше, в зависимости от реализации. Это означает, что разница громкости между тихими и громкими частями останется такой же, как и раньше, и, следовательно, будет слышна. Так что это правда, "простая нормализация" здесь не работает.
Что вам нужно сделать, это сжать аудио сигнал. Сжатие означает, что динамический диапазон сигнала будет уменьшен, так что громкие и тихие части будут "ближе" друг к другу, и разница больше не будет столь очевидна. Это то, что часто делают радиостанции: они применяют сильное сжатие к своим вещательным трекам, чтобы они хорошо звучали в громких условиях, таких как автомобили и т.д., А также хорошо звучали при прослушивании на более низких уровнях громкости. Недостатком является то, что иногда вы слышите, что хоровые части песни (те, которые должны звучать громче) имеют меньшую громкость, чем другие части.
Практический подход
Я хотел бы извлечь звуковой сигнал из видео, а затем открыть его в таком инструменте, как Audacity. Он имеет встроенный компрессор, который можно использовать для уменьшения динамического диапазона.
Вот несколько рекомендаций по его настройкам (хотя это зависит от файла, поэтому вы должны просто поэкспериментировать и посмотреть, что лучше для вас работает):
- Порог: Порог - это уровень громкости, при котором включается компрессор. Если у вас очень тихие детали, вы должны установить порог так, чтобы компрессор работал большую часть времени.
- Соотношение: соотношение должно быть довольно высоким. Однако слишком высокие значения могут сделать трек неестественным.
- Время атаки / освобождения: экспериментируйте с ними. Обычно вы хотите меньшее время атаки и большее время выпуска. Плохие настройки могут привести к "прокачке" звуков, также в зависимости от содержимого.
После этого вы можете снова добавить звуковую дорожку обратно в видеофайл (в Интернете есть несколько учебных пособий, а также, возможно, несколько вопросов по SO/SU)