У меня довольно большой текстовый файл (около 20 ГБ), который я использую в качестве простой базы данных, поэтому каждая запись разделяется новой строкой, и нарушение этого формата вызовет проблемы. Этот файл также содержит некоторые NUL-символы, или, по крайней мере, это то, что я подозреваю, поскольку grep
рассматривает его как двоичный файл.
Я сталкивался с этим вопросом и ответом, который заявляет:
Некоторое чтение показало, что grep ищет нулевой символ в первой тысяче байтов или около того, а затем определяет из этого, является ли файл «двоичным».
По этой причине я думаю об удалении этих символов из файла примерно так:
tr < file-with-nulls -d '\000' > file-without-nulls
Но я хочу быть уверен, что это не нарушит форматирование файла. Это вообще возможно?