Я работаю над проектом с использованием данных Twitter. У меня есть несколько сотен тысяч твитов, загруженных и сохраненных в файлах. Данные были возвращены в формате json, и потребитель потока, который я использовал, преобразовал их в словари python, поэтому все они хранятся в текстовых файлах, по одному твиту на строку, как словари python.
Существует много посторонней информации, поэтому у меня есть скрипт на python, который читает каждую строку в виде слова и извлекает некоторую полезную информацию. Как лучше всего хранить эти данные сейчас, когда они извлечены? Я распечатывал его обратно в CSV-файлы, но у меня были некоторые проблемы с этим, и я столкнулся с некоторыми людьми, которые, кажется, считают, что это не лучший способ сохранить его.
Каков наиболее эффективный способ хранения этих данных? Мне нужно будет получить к нему доступ, чтобы найти шаблоны, сопоставить похожие элементы и т.д. Я думал об использовании базы данных - это лучший вариант? Есть ли другие, которые лучше?