Articles of web scraping

Невозможно очистить элементы внутри элемента #document

Для одного из моих проектов расширения Chrome я отобразил содержимое HTML на другой веб-странице в текущей веб-страницы, динамически используя атрибут src. Теперь я хочу очистить несколько значений из . Но jQuery всегда показывает этот как пустой. Причина, по которой я использую, состоит в том, что на выбранной странице есть несколько файлов JavaScript, которые я хочу […]

Скребок с красивым супом: почему метод get_text не возвращает текст этого элемента?

В последнее время я работал над проектом в python, который включает в себя очистку нескольких веб-сайтов для некоторых прокси. Проблема, с которой я сталкиваюсь, заключается в том, что когда я пытаюсь очистить какой-то известный прокси-сайт, Beautiful Soup не делает того, что я ожидаю, когда я попрошу его найти, где IP-адреса находятся в таблице прокси. Я […]

Утечка памяти Dryscrape / webkit_server

Я использую dryscrape / webkit_server для очистки веб-сайтов с поддержкой javascript. Использование памяти в процессе webkit_server увеличивается с каждым вызовом session.visit (). Это происходит со мной, используя следующий скрипт: import dryscrape for url in urls: session = dryscrape.Session() session.set_timeout(10) session.set_attribute(‘auto_load_images’, False) session.visit(url) response = session.body() Я повторяю прибл. 300 URL-адресов и после 70-80 URL-адресов webkit_server […]

Почему request.get () извлекает разные HTML-файлы с помощью Python, чем браузер?

Я пытаюсь извлечь данные из таблицы HTML, но кажется, что HTML неправильно загружается при использовании requests.get() . Вместо этого строка в источнике читает: «JavaScript не включен, и поэтому эта страница может работать некорректно». Когда я перехожу на страницу в Google Chrome, HTML появляется так, как должно. Как получить скрипт Python для загрузки надлежащего HTML?

Как получить источник данного URL-адреса из сервлета?

Я хочу прочитать исходный код (HTML-tags) данного URL-адреса из моего сервлета. Например, URL-адрес http://www.google.com, и моему сервлету нужно прочитать исходный код HTML. Зачем мне это нужно, мое веб-приложение собирается читать другие веб-страницы и получать полезный контент и что-то делать с ним. Допустим, моя заявка показывает список магазинов одной категории в городе. Как создается этот список, […]

Html Agility Pack: найдите комментарий узла

Я очищаю сайт, который использует Javascript для динамического заполнения содержимого веб-сайта с помощью пакета Html Agility. В основном, я искал XPATH “\\div[@class=’PricingInfo’]” , но этот узел div записывался в DOM через Javascript. Таким образом, когда я загружаю страницу через Html Agility pack, XPATH, упомянутый выше, не может быть найден. Оказывается, есть комментарий перед конкретным блоком […]

Python переадресовывает, а затем загружает страницу?

У меня есть следующий скрипт python, и он работает красиво. import urllib2 url = ‘http://abc.com’ # write the url here usock = urllib2.urlopen(url) data = usock.read() usock.close() print data однако некоторые URL-адреса, которые я им даю, могут перенаправить его 2 или более раз. Как я могу заставить python ждать перенаправления до загрузки данных. Например, при […]

Как выбрать конкретный элемент в выпадающем списке на сайте ASPX

Я хочу, чтобы это было так, как если бы пользователь нажал «Dental». Однако, когда я запускаю следующий код, ничего не происходит. Я хочу, чтобы это было так, как если бы пользователь нажал «Dental». Однако, когда я запускаю следующий код, ничего не происходит. Я хочу, чтобы это было так, как если бы пользователь нажал «Dental». Однако, […]

Как очистить следующие страницы на python с помощью Beautifulsoup

Предположим, я соскабливаю URL-адрес http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-India?sort_filter=alpha и он не содержит страниц, содержащих данные, которые я хочу очистить. Итак, как я могу очистить данные всех следующих страниц. Я использую python 3.5.1 и Beautifulsoup. Примечание. Я не могу использовать scrapy и lxml, поскольку это дает мне некоторую ошибку установки.

Загрузите документы с веб-страницы aspx в R

Я пытаюсь автоматически загружать документы для нефтяных и газовых скважин из Комиссии по сохранению нефти и газа в Колорадо (COGCC) с использованием пакетов «rvest» и «downloader» в R. Ссылка на таблицу / форму, которая содержит документы для конкретной скважины; http://ogccweblink.state.co.us/results.aspx?id=12337064 «Id = 12337064» является уникальным идентификатором скважины Чтобы просмотреть документы на странице формы, нажмите их. […]

Intereting Posts
Конкатенация текста внутри контейнера для жидкости CSS-флюидные столбцы, фиксированные поля; святой Грааль святых граалей CSS Divs перекрывают друг друга Почему использование window.navigator.userAgent для извлечения браузера Explorer 11 распознается как Mozilla? Как получить пользователя и версию? Заполнитель поля текстового поля в формате HTML Onchange в динамической таблице только обновляет входное текстовое поле в первой строке Базовая аутентификация HTTP с использованием python Использование Javascript для создания динамического идентификатора ввода Конвертировать видео в MP4 с помощью php Ширина Div 100% минус фиксированное количество пикселей Есть ли сайт, на котором я могу видеть, какие tags HTML 5 поддерживаются в разных браузерах? И WebGL? Центр сайта в центре экрана контейнер div не применяется в фоновом цвете к двум плавающим divs внутри него Bootstrap 3 Стол внутри панели переполнен Изменение размера фонового изображения через CSS