1

У меня есть диаграмма рассеяния, которую я сгенерировал с помощью R, она показывает тысячи перекрывающихся точек. Мне нужно графически комментировать сгенерированный PDF дальше, в формате PDF, с помощью Inkscape. Однако работать с этим файлом просто невозможно, так как точек слишком много (Inkscape аварийно завершает работу, в любом случае становится слишком медленным для работы, точки очень трудно выбрать и т.д.).

Я хочу "сплющить" PDF, т.е. удалить всю информацию, которая не отображается в любом случае (точки, скрытые под кучами других точек и т. д.).

Я все еще хочу сохранить векторную информацию, я не хочу растеризовать фигуру.

Это должно быть сделано с помощью свободно доступных инструментов, а у меня нет Acrobat X.

Я искал сглаживание PDF в контексте bash/linux, однако затем я нашел инструменты, связанные с обработкой PDF-форм, что является совершенно другой темой.

1 ответ1

4

Это прекрасный пример решения большой проблемы, но не тот вопрос, который нужно задавать. Вы уже работаете с входными данными в R, так почему бы не обработать их там? PDF по сути является бинарным, так что вам не повезло, если вы что-то делаете с ним как есть.

Лучше всего предварительно обработать данные в R до создания PDF (в конце концов, для этого и был создан R). Лучший способ решить эту проблему - циклически просмотреть входные данные и удалить все остальные точки с одинаковыми координатами в пределах определенного порога. Я бы обернул это в функцию, чтобы вы могли экспериментировать с разными порогами - но я уверен, что вы поняли идею.

Не усложняйте ситуацию, вводя ненужные уровни абстракции и дополнительные форматы файлов. У вас уже есть данные, работа с данными.


Я считаю, что следующие вопросы переполнения стека могут помочь:

Как удалить частичные дубликаты из фрейма данных?

Определить дубликаты данных с порогом


Наконец, вы можете рассмотреть возможность использования тепловой карты, если это применимо, поскольку она может отображать ту же информацию (цвет, представляющий плотность точек, найденных в определенных областях), хотя без необходимости индивидуальной визуализации каждой отдельной точки данных.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .