Я скачал базу данных из imdb в виде файла tsv.gz (csv). Imdb сказал, что файл был в UTF-8 (https://www.imdb.com/interfaces/?ref_=login), но когда я посмотрел на файл в NotePad и в Excel, это была куча китайских букв / символы, поэтому я предполагаю, что не могу использовать его в Python. Кто-нибудь знает, что случилось или что делать?

2 ответа2

1

Я скачал и использовал title.ratings.tsv.gz. Нет проблем.

Эти шаги, чтобы открыть его:

  • распакуйте его (если вы выигрываете, вы можете использовать утилиту 7zip);
  • чем просто открыть его.

Если вы используете Excel, вы должны использовать процесс импорта (http://www.arj.no/2013/06/28/how-to-import-tsv-file-in-ms-excel/).

В NotePad это выглядит так

1

Спасибо за это добавленные детали.

Этот загруженный файл сжимается с помощью gzip, и если вы попытаетесь просмотреть его как есть, он будет интерпретирован как те символы, которые вы видите. Вам нужно будет распаковать его, прежде чем вы сможете просмотреть текст в блокноте или Excel.

Как упоминает Дейв ниже, вы должны иметь возможность использовать любое количество инструментов zip/archiving для его распаковки. Возможно, вы также захотите Google "распаковать файл .gz в Windows" и следуйте инструкциям.

После распаковки вы должны получить файл с расширением .tsv, как указывает IMBD.

Если вы уже распаковали файл .gz и по-прежнему видите странные символы, вам, возможно, не нужно просто открывать файл, а импортировать его в Excel. Для этого см. Следующее руководство.

Надеюсь, это поможет! Не стесняйтесь комментировать с вашим прогрессом.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .