Вопросы с меткой [screen-scraping]

Очистка экрана, также известная как очистка веб-страниц или очистка данных, представляет собой программный метод, используемый для сбора и анализа информации из пользовательских интерфейсов. Вопросы об использовании языков программирования для очистки экрана не по теме и должны задаваться в вопросах и ответах Stack Overflow.

24
голоса
7ответов
16k показов

Как скопировать текст из диалогового окна?

В Windows иногда появляется сообщение об ошибке с длинным текстом. Ввод вручную точных деталей сообщения об ошибке может быть раздражающим и длительным процессом. Есть ли способ скопировать текст из ...
12
голосов
4ответа
6k показов

Насколько "законно" использование сайта с помощью cURL?

Недавно я экспериментировал с cURL и обнаружил, что с ним можно многое сделать. Я создал небольшой скрипт, который сканирует музыкальный сайт, который воспроизводит онлайн-песни. По пути моего ...
6
голосов
2ответа
3k показов

Получить текущий HTML-код страницы, созданной с помощью запросов AJAX

Итак, я использую браузер Chrome/Chromium (на месте может использовать Firefox, если это будет необходимо). Я просматриваю веб-страницы, которые созданы "на лету" с (предположительно) AJAX ...
4
голоса
2ответа
1k показов

Как автоматически копировать текст с разных сайтов

Я хочу знать, как автоматически копировать текст с разных сайтов. Я создаю базу данных компаний, которые принадлежат к определенным ассоциациям. На сайте есть список компаний с описанием каждой из ...
4
голоса
4ответа
207 показов

Сохранить отчет из Windows, проверяя съемный диск?

Есть ли способ сохранить отчет об ошибках, которые Windows обнаружила и исправила в USB-ключе? Windows представила мне этот диалог, кстати, это не изменяемый размер: , Некоторые проблемы были найдены ...
4
голоса
1ответ
138 показов

Извлечение данных из онлайн-атласа

Есть онлайн- атлас , из которого я хотел бы извлечь значения. Атлас предоставляет инструмент («Запрос») для извлечения значений, когда вы щелкаете по местоположению или включаете регион на карте, или ...
3
голоса
1ответ
598 показов

Как называется информационное окно Google (рис. Внутри)? Есть API для доступа к нему из поиска Google?

Пример того, что я хотел бы получить доступ: Просто интересно, смогу ли я написать что-нибудь, что будет запрашивать Google со строкой поиска, и, если появится окно с краткой информацией, получить ...
2
голоса
0ответов
226 показов

wget поместил все предпосылки в плоский подкаталог, но не в корневую страницу?

Я пытаюсь получить wget, чтобы сохранить страницу + предварительные требования в формате, похожем на формат веб-браузера: article.html article_files/img.jpg article_files/script.js Я могу получить ...
2
голоса
2ответа
2k показов

Сканирование в Интернете / сканирование определенной книги Google

Для моей работы мне нужно почистить текст из большой книги в Google Книгах. Эта книга очень старая и не защищена авторским правом. Книга представляет собой газету мира. Мы будем помещать текст в базу ...
1
голос
3ответа
872 показов

Сохранить части сайта как чистый текст

Я надеюсь, что я могу спросить это здесь. Мне нужно извлечь содержимое существующего веб-сайта (отвечает за владельца веб-сайта) в документы Word (или текст). Для этого мне нужен только контент из ...
1
голос
1ответ
2k показов

Как я могу использовать AutoHotKey для чтения текста на месте мыши?

Я могу прочитать весь текст окна, используя WinGetText(), но я пытаюсь получить текст в текущем местоположении мыши. Я нашел несколько примеров на форумах AutoHotKey, но все они очень старые (с ...
1
голос
1ответ
645 показов

Законно ли проверять свои банковские выписки в США?

Я хочу автоматически загрузить свои банковские выписки. Мой банк ежемесячно взимает плату за доступ к OFX, поэтому я рассмотрел возможность сбора точек данных другими способами (скриптинг, очистка ...
1
голос
0ответов
37 показов

Страница стиля igoogle с контентом, удаленным с других страниц

Я ищу домашнюю страницу в Интернете или расширение Chrome, которая будет отображать домашнюю страницу типа iGoogle, но которая позволит мне выбирать контент на других страницах. Таким же образом ...
1
голос
0ответов
120 показов

Как вставить заголовки HTML в Excel

В предыдущем ответе (vba - таблица html на лист Excel) о разборе / вставке содержимого таблицы HTML в лист Excel, wbeard2 поделился этим очень полезным, иллюстративным фрагментом кода. Он / она ...
1
голос
1ответ
904 показов

Альтернативный, более эффективный метод очистки для некодера, чем importxml и xpath из Google doc?

Я искал в сети простое решение, но, похоже, у каждого есть свой уникальный метод (язык кодирования) для достижения этой цели. Я только начинаю изучать Linux, и мои навыки программирования полностью ...
1
голос
1ответ
3k показов

Веб-скребок для Outlook Web App 2010?

Я с большим успехом пользуюсь weboutlook в течение многих лет, но недавно мы перешли с версии Outlook Web App (OWA) на 2007 год. Кто-нибудь знает о скребке, который работает с более новой версией?
1
голос
4ответа
5k показов

Существует ли плагин Firefox или Chrome для автоматического сохранения изображений с веб-страницы

На веб-сайте есть слайд-шоу изображений, например:Эта ссылка Поскольку слайд-шоу автоматическое, есть ли способ автоматически сохранить эти изображения в папке? или плагином для браузера или ...
1
голос
2ответа
209 показов

Программное обеспечение Data Mining

Я хочу собрать некоторые данные, подобные этой http://www.newcardealers.ca/en/Dealers/List-A.aspx И вставьте имя, адрес, номер телефона, адрес электронной почты и т.д. В базу данных. Есть ли какое-то ...
0
голосов
1ответ
55 показов

Может ли веб-сайт отличать веб-скребок от легитимного пользователя, исходя из скорости обхода?

Если я уменьшу скорость веб-скребка, чтобы она соответствовала скорости человека, сможет ли третье лицо отличить их? Какие еще критерии используют веб-сайты, чтобы различать пользователей и скребки?
0
голосов
0ответов
244 показов

Минимальное использование памяти в безголовом Firefox?

Я планирую запускать бот во многих отдельных параллельных экземплярах и хотел бы сохранить использование памяти на минимальном уровне. Боту нужен только функциональный JS и загрузка страницы, но ...
0
голосов
3ответа
802 показов

Я вижу анимированные файлы PNG на некоторых сайтах вместо файлов GIF. Как я могу сохранить / загрузить их?

Я знаю, как сохранить GIF, это очень просто. Просто щелкните правой кнопкой мыши и сохраните. Вуаля! Но с этими новыми анимированными PNG я не имею ни малейшего сомнения. Без использования ...
0
голосов
0ответов
284 показов

Как очистить электронную почту от «сайтов, использующих cloudflare»? который дает [электронная почта защищена]

Я пытаюсь очистить сайт и весь его контент. Сайт, который я пытаюсь очистить, использует cloudflare, поэтому, если на сайте есть адреса электронной почты, он запутывается и показывает [email ...
0
голосов
0ответов
106 показов

Веб-страница для нумерации страниц, текст PDF

Я искал простой способ преобразовать веб-сайт в разбитый на страницы PDF-файл с возможностью выбора текста. Я перепробовал множество расширений браузера, но они допускают только PNG, полностраничные ...
0
голосов
0ответов
30 показов

Как определить, что несколько сайтов содержат ключевое слово?

У меня есть список 9k веб-адресов и пара ключевых слов. Я хотел бы знать, содержит ли веб-страница это слово. В идеале, автоматический поиск в Google с некоторыми операторами поиска будет работать ...
0
голосов
0ответов
48 показов

Как сделать резервную копию доски объявлений, размещенной сторонней организацией?

Друг попросил меня сделать резервную копию этого форума: http://oldforums.comicbookresources.com/ Это работает на vBulletin. Там случилось что-то плохое, и хозяева больше не хотят принимать гостей и ...
0
голосов
1ответ
228 показов

Ошибка макроса Web Scraping

Я пытаюсь удалить несколько страниц, которые являются результатом поиска ключевой работы. Я написал этот код, но я получаю сообщение об ошибке при запуске. Ошибка: Application \-defined or ...
0
голосов
1ответ
707 показов

Httrack фильтр ссылок с определенным шаблоном

Я пытаюсь использовать httrack для загрузки всего веб-архива с archive.org. Идея состоит в том, чтобы загрузить только ссылки на архив (как можно больше), но только те ссылки, которые действительно ...
0
голосов
0ответов
408 показов

Соскоб экрана через порт дисплея / сплиттер / монитор оборудования

Проблема фона У меня есть программа очистки экрана, которая идентифицирует изображения на моем экране и сообщает мне полезную информацию. Я хочу быть предельно осторожным в отношении приложений, ...
0
голосов
0ответов
880 показов

Рекомендации по поиску в сети и обмену данными

У меня есть панель солнечных батарей, и у компании, которая ее настраивает (Fronius), есть веб-сайт, на котором я могу транслировать данные, собранные с панели солнечных батарей (текущая мощность, ...
0
голосов
1ответ
129 показов

Автоматически переходить по страницам загрузки отфильтрованных ссылок на сайте

С DownThemAll! Я могу скачать все ссылки на данной странице и отфильтровать их. Допустим, сайт www.google.com, и я хочу получить все результаты поиска. Я настроил фильтр: /search?д = Это позволит ...
0
голосов
1ответ
787 показов

Сканирование / сканирование определенного веб-сайта

Я пытаюсь очистить 1265 html-файлов за раз, чтобы получить названия и описания предметов, которые есть у меня на сайте. У меня есть разрешение от оптовика на копирование этих данных, но я не хочу ...
0
голосов
1ответ
171 показов

IRobot Скребковый инструмент

Я использую инструмент очистки IRobot для получения некоторых данных с веб-сайта, но по какой-то причине это не происходит. Я думаю, что проблема должна быть связана с настройками прокси-сервера, ...
0
голосов
0ответов
99 показов

Программы для чтения данных с интерактивных веб-карт

Этот вопрос в том же духе, что и этот: Программа для чтения данных с отсканированных графиков В последнее время в сети появляется все больше и больше интерактивных диаграмм. Посмотрите на следующее: ...
0
голосов
0ответов
77 показов

Навигация / нажатие в выпадающих списках на веб-сайте

Я пытаюсь, чтобы мой Excel VBA переходил на определенную страницу финансового веб-сайта, но не могу правильно щелкнуть или выбрать раскрывающийся список в "меню при наведении курсора", чтобы перейти ...
-3
голоса
3ответа
439 показов

Как внедрить механизмы противоскребания для моего сайта на Amazon S3?

У меня есть несколько статических веб-страниц, размещенных на Amazon S3, которые очень часто обновляются. Я хочу внедрить несколько механизмов предотвращения взлома, таких как запрет IP-адресов, ...