Я работаю с большим количеством больших CSV-файлов, иногда размером более 10 ГБ, по которым мне нужно выполнить совокупный анализ (например, минимальная и максимальная длина данных в столбце, каждое поле в столбце числовое, каждое поле в столбце в формате даты ISO).

С меньшими файлами я копирую и вставляю в Excel, но как только размер данных приближается к 100 МБ данных CSV, Excel может стать громоздким.

Позвольте мне попробовать пример.

Скажем, у меня есть файл CSV, который содержит следующее.

FirstName,LastName,BirthDate,Caseload
Bob,Jones,1966-10-22,38
Alice,Smith,1971-03-10,41
Darren,Wilson,1962-04-18,49

Желаемый вывод будет другой CSV-файл, как это.

column_name,min,max,all_numeric,all_dates
FirstName,3,6,N,N
LastName,5,6,N,N
BirthDate,10,10,N,Y
Caseload,2,2,Y,N

Пришлось бы масштабировать и работать с CSV-файлом объемом 10 ГБ. Я думаю, что сценарий, подобный Python, является подходящим способом, если я действительно хочу, чтобы он был настроен именно с этим выводом. Однако, инструмент, даже тот, за который я должен заплатить, был бы желателен. Я просто не знаю, как назвать такой инструмент для его поиска, если такой инструмент существует.

0