4

Я работаю над проектом с использованием данных Twitter. У меня есть несколько сотен тысяч твитов, загруженных и сохраненных в файлах. Данные были возвращены в формате json, и потребитель потока, который я использовал, преобразовал их в словари python, поэтому все они хранятся в текстовых файлах, по одному твиту на строку, как словари python.

Существует много посторонней информации, поэтому у меня есть скрипт на python, который читает каждую строку в виде слова и извлекает некоторую полезную информацию. Как лучше всего хранить эти данные сейчас, когда они извлечены? Я распечатывал его обратно в CSV-файлы, но у меня были некоторые проблемы с этим, и я столкнулся с некоторыми людьми, которые, кажется, считают, что это не лучший способ сохранить его.

Каков наиболее эффективный способ хранения этих данных? Мне нужно будет получить к нему доступ, чтобы найти шаблоны, сопоставить похожие элементы и т.д. Я думал об использовании базы данных - это лучший вариант? Есть ли другие, которые лучше?

1 ответ1

2

Если хранятся только пары ключей, очевидно, базы данных в стиле nosql работают хорошо - они используются Твиттером, и они могут подойти, если вам нужно обрабатывать много данных с очень небольшой структурой. Возможно, вы могли бы использовать традиционные rdbms или встроенную базу данных sqlite, если существует больше, чем просто хранилище пар ключей и имеются структурированные данные с отношениями.

Это также может помочь понять слабость хранилища плоских файлов (без регистрации транзакций или структуры), nosql (без ACID) и традиционного db (громоздкого, менее масштабируемого, но хорошо понимаемого и часто достаточно быстрого). С небольшим не обновленным набором данных, любой из них должен работать

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .