1

Я работаю в университетской библиотеке и должен архивировать наш университетский бюллетень (правила, положения, отделы, курсы и т.д.). Я сделал самый последний, но теперь должен делать каждый год, начиная с 1997 года. 2014-15 был длиной 3100 страниц и потребовалось около 1,5 недель, чтобы наконец собраться вместе. Я делал каждую страницу по одной, копировал в Word, немного форматировал, а затем сохранял все документы Word в PDF. Мне нужно, чтобы документы были доступны для поиска, и чтобы они содержали какой-либо тип оглавления / закладок, чтобы по ним можно было легко ориентироваться. Я нашел способ загрузить HTML для каждой страницы отдела, перехватив ссылки через элемент проверки в браузере, а затем используя HTTrack для их загрузки.

Но сейчас я сталкиваюсь с той же проблемой, что и посещение каждого сайта и копирование текста. Там нет хорошего способа сделать это. У меня есть Acrobat X, но он не поддерживает никаких закладок / заголовков, и довольно сложно поддерживать похожий вид от страницы к странице. У меня также есть проблемы с gettign "Чистыми" документами, которые я могу превратить в PDF / A. Думаю, я просто смотрю, не сталкивался ли кто-нибудь с чем-то подобным или мог бы придумать какое-нибудь решение, которое я мог бы собрать. Я могу загрузить файл 2014-15, если это поможет. Я даже не знаю, является ли это лучшим Exchange для использования. Любая помощь будет принята с благодарностью!

1 ответ1

1

Вы можете использовать функцию WebCapture в Acrobat Pro с соответствующими настройками (остаться на том же сервере, остаться в филиале и т.д.).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .