Я нашел в сети действительно интересный роман о радио и хотел бы привлечь к нему внимание одного из моих знакомых. К сожалению, аудио материал имеет низкое качество, только 22,05 кГц и 1 канал, моно. Однако это не содержит музыку, только речь. Вообще говоря, это звучит как старое радио или старый телефон. Я хотел бы немного улучшить его, если это возможно, прежде чем отправить его своему другу. Какое программное обеспечение я должен использовать, и какие операции я должен выполнять над аудиофайлом, чтобы он звучал немного лучше?
4 ответа
Если частота дискретизации для записи голоса была 22 кГц, вы не можете просто увеличить ее, установив ее на 44 кГц. Вы можете сравнить его с растровым изображением: вы не получите больше деталей, увеличив "пиксели". То же самое с моно / стерео. Если у вас есть моно запись, вы не можете превратить ее в стереозапись. Это работает только наоборот, например, превращение стерео в моно.
Однако, если есть другие "проблемы", например, некоторые части записи не имеют достаточной громкости, вы можете исправить это или сгладить резкие изменения и т.д. Но это зависит от типа проблемы, общего решения нет. Вы должны ознакомиться с темой, чтобы вы знали, что такое "техническая проблема", а затем попытаться найти решение. Если у вас есть проблемы с применением этого решения (при поиске решения очень специфической акустической проблемы), было бы неплохо еще раз спросить об этой конкретной теме.
22,05 кГц - это не « плохое качество », как говорит устная речь ... большая часть библиотеки Audible имеет частоту дискретизации 22,05 кГц - даже для файлов « высокого качества ».
Если запись « звучит плохо », возможно, это связано с чем-то другим:
- битовая глубина (8 бит против 16 бит)
- сжатие (низкий битрейт MP3 против AAC или OGG)
- микрофон (дешевый против не очень дешевого)
- расположение микрофона против считывателя
- оригинальный носитель (аналоговый или цифровой / кассетный или мини-диск или ПК)
- предыдущий сэмпл с гораздо более низкой частоты дискретизации (что вы сейчас и пытаетесь сделать).
В любом случае, информация сейчас потеряна, и ее будет сложно вернуть. Лучшее, что вы можете сделать, не тратя на это много времени, - это настроить эквалайзер, чтобы он звучал более приемлемо.
Образец, который вы предоставили, не звучит слишком плохо для меня (хотя я не говорю на языке, поэтому, возможно, упускаю некоторые нюансы ...).
Я хотел бы слегка настроить эквалайзер и « нормализовать » звук, чтобы поднять уровень - вы можете обнаружить, что то, что вы считаете плохой записью, на самом деле шум в вашей системе становится более заметным после увеличения громкости.
Форма сигнала изменяется, как показано ниже (с использованием Audacity), до (вверху) и после (внизу):
В записи есть немного реверберации (которая, вероятно, будет исходить из комнаты и, возможно, будет слишком далеко от микрофона). Однако имеется минимальный фоновый шум (отсюда и узкие участки формы сигнала), нет искажений и только один всплеск во всем файле (не показан выше).
Как уже упоминалось, запись для произнесенного слова на частоте 22,05 кГц сама по себе не является «плохой»; но он также не может быть «исправлен», потому что в записи нет информации, которую можно было бы подчеркнуть. Вы можете работать только с тем, что уже есть.
Некоторое объяснение ...
Человеческий голос действительно наиболее различим на частоте 2–6 кГц. Вот где все согласные и что действительно помогает слушателю решить, что на самом деле говорится; это также то, почему засунув пальцы в уши, вы понимаете, что блокирует эти более высокие частоты.
В речи есть информация выше 6 кГц, но она намного выше, а на 11 кГц остается очень мало полезной информации.
Так что - для произнесенного слова они используют частоту дискретизации 22,05 кГц.
Существует очень сложный аудиоанализ, называемый теоремой выборки Найквиста-Шеннона, часто называемый пределом Найквиста, который в основном сводится к
«Самая высокая частота звука, которую можно записать в аудиофайл, составляет половину частоты дискретизации».
Это соответствует примерно 11 кГц при записи 22,05 кГц.
Это достаточно для человеческого голоса.
Это также означает, что больше нет никакой информации выше, с которой можно работать, даже если вы измените частоту дискретизации до 44,1 кГц [качество звука CD].
На вашей аудиокниге.
Проблема, насколько я понимаю, в том, что читатель был немного ближе к микрофону. Это подчеркивает более низкие частоты, из-за того, что называется эффектом близости. Не нужно вдаваться в подробности здесь, но в целом это делает запись немного скучной.
Он также несколько сжат - динамический диапазон уменьшен, поэтому тихие биты громче, а громкие - тише. Это должно помочь понять, но это было сделано не так хорошо, как могло бы быть, и имеет тенденцию подчеркивать бас еще больше. Единственная причина, по которой я могу придумать, заключается в том, что это заставляет читателя звучать «более мужественно, более авторитетно» ... но на самом деле не помогает ни в малейшей степени разобраться:/
Что нам нужно сделать, так это понизить басы, подчеркнуть максимумы и попытаться снять акцент с некоторых тяжелых компрессий.
Большая часть этого может быть сделана в Audacity, в большей или меньшей степени, но я чувствую себя более комфортно в Cubase, поэтому позвольте мне показать вам там ...
Большинство людей сказали бы вам сначала нормализовать файл.
Не делайте этого сначала - вы убьете свой потенциальный запас.
Если вам нужно сделать это вообще, делайте это в последнюю очередь.
Также обратите внимание, что вы не можете "отменить" сжатие, которое уже было применено - это было бы эквивалентно возвращению яиц и муки из выпеченного пирога - вместо этого вы можете попытаться смягчить его только в наиболее пострадавших районах.
Если все, с чем вам нужно работать, это эквалайзер, то вы можете попробовать уменьшить уровни ниже 250 Гц, плавно опустившись ниже этого уровня. Затем вы можете попытаться получить некоторые согласные обратно, добавив противоположный наклон выше, возможно, 2 или 3 кГц.
В 3:40 я заметил раздражающий щелчок или сильный удар по губам, который я просто выбрал и повернул к нулю - вы можете получить все умные с помощью кликера, но это не стоило усилий.
Моим оружием выбора для любой спасательной операции, подобной этой, является многополосный компрессор.
Я нашел бесплатный многоканальный комп для Audacity, хотя сам не пробовал, так что YMMV - https://www.gvst.co.uk/gmulti.htm
Я использую значительно более дорогой Waves LinMB, но общая идея та же. Вот как я это настроил ...
На картинке видно, что я очень сильно бью нижний конец, пытаясь убрать этот чрезмерный бум. Середину я почти не трогал. Максимумы Я увеличил их выходной уровень, в то же время применив небольшое сжатие, просто чтобы некоторые из более тяжелых S и т.д. Не становились слишком резкими. Кроме того, на данный момент я вообще не увеличил общую громкость - у нас все еще есть достаточно места, чтобы поиграть, и будет лучше, если, когда вы включаете и выключаете свой эффект для сравнения, вы не просто дурачите себя громкостью менять.
Быстрые примеры -
до...
https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix
после...
https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix
На данный момент, когда вы довольны тем, как это звучит, теперь вы можете нормализовать.
Обратите внимание, что мои примеры с более высокой частотой дискретизации, потому что я не могу экспортировать напрямую в 22.05. Это никак не повлияет на результат.
Используйте Audacity, которая является программным обеспечением с открытым исходным кодом. Вот ссылка https://www.audacityteam.org/
Проверьте следующую ссылку, чтобы увидеть, можете ли вы сделать что-то для улучшения вашего конкретного аудио https://www.wikihow.com/Get-Higher-Audio-Quality-when-Using-Audacity