Фон:
Я некоторое время боролся за установку сервера rstudio на AWS EC2 (с ноября). Это было похоже на отслоение лука, всегда очередное препятствие. Для пользователей Windows документация по AWS, которую они публикуют сами, ужасна. Мне удалось создать экземпляры rstudio, но у меня возникли проблемы, на которые, я уверен, есть простые ответы, но мне не повезло в их разработке, и я пробовал много вещей. Я просто пытаюсь загрузить файл в rstudio, прочитать его и сохранить где-нибудь. При чтении файла сначала у меня возникли следующие проблемы.
Чтение в файл:
Кнопка загрузки не принимает большие файлы. Для небольших файлов это работает нормально, но все, что требует анализа сервера, не работает через эту кнопку. Я также пытался через четыре разных браузера, чтобы увидеть, если это проблема браузера, это не так. Небольшие файлы работали без проблем (например, 40 КБ).
Помещение файлов в dropbox и затем синхронизация с rstudio не работали. Синхронизация была хороша для небольших файлов (например, 200 КБ), но файлы ГБ не появлялись или были повреждены.
Я попытался соединиться через Winscp и filezilla через putty. Это был успешный запуск команд
sudo chown -R ubuntu /home/rstudio
sudo chmod -R 755 /home/rstudio
и я мог бы загрузить в rstudio. К сожалению, после этого момента я больше не мог получить доступ к экземплярам. Я мог получить к ним доступ через AWS, но не смог пройти мимо экрана входа в rstudio. Я пробовал это много раз, перезапускал и во многих разных случаях. Я также нанял фрилансера, чтобы он помог мне, и он выполнил некоторые другие команды, копию которых я сохранил для доступа к rstudio таким же образом. Успешно файлы могли быть загружены (хотя и очень медленно), но затем доступ к входу в систему через браузер к экземпляру больше не был доступен, поэтому эффективно он забрал мои экземпляры (я мог запускать экземпляры, только не запускать rstudio).
Я также пробовал код в замазке, такой как
rsync -avz myHugeFile.csv amazonusername@my.amazon.host.ip
:
Но может случиться так, что я не знал, как поместить местоположение myHugeFile.csv на мой компьютер (хотя я много чего пробовал), но это не сработало.
Мне удалось загрузить в папку tmp на корневом диске AWs EC2 и затем можно использовать замазку для перемещения файлов, но загрузка файла объемом 10 ГБ заняла 36 часов. Я думаю, что это не нормально. Когда файлы приходят, они намного меньше, чем они были изначально, и они были повреждены.
Я использую AMI от louis aslett на rstudio, который вы получаете, если при настройке своего экземпляра вы набираете rstudio в разделе AMI сообщества на платформе amazon.
Это не проблема размера экземпляров, так как у них были большие инстансы объемом 244 ГБ, а в основном 120 ГБ.
Если есть возможность загружать большие файлы в dropbox и получать их с сервера rstudio, это было бы здорово (на данный момент синхронизируются только маленькие файлы). Или возможность использовать кнопку загрузки. Или почти любое решение было бы потрясающим. Я создал корзину S3, так как это может быть проще, я подозреваю, что amazon может ограничить возможность загрузки в EC2 по другим маршрутам. Но это кажется мне безумным.
Пожалуйста, дайте мне знать, если у вас есть какие-либо мысли о том, чтобы заставить работать любой из этих шагов.