У меня есть много файлов, содержащих записи данных, которые хранятся в виде ASCII-файлов с разделителями. Каждая запись представляет собой строку, содержащую числовые данные, причем некоторые столбцы являются целочисленными, а другие с плавающей точкой, например.
1 1 5711 4 22280.365035 75.917899 55.485326 4.0260 3.9460 1.7921 11.2400 0.0000 2.6735 54.7331 52.7375
Я хочу проанализировать эти данные на основе простых критериев (столбец 2 == 1, столбец 6> = 53.275 и т.д.) И вывести соответствующие записи в другой файл.
Каждый файл имеет размер ~ 1 ГБ, что соответствует ~ 9M записей. В настоящее время у меня есть некоторый код MATLAB, который проходит через него построчно, но это занимает много времени (~ 2 часа на файл). Единственная причина, по которой я использую MATLAB, заключается в том, что я буду обрабатывать данные позже.
Как я могу проанализировать / обработать это более эффективно? Стоит ли использовать для этого "правильный" язык, или я не вижу значительного увеличения скорости?