Articles of html parsing

Функция rread package read_html () перестает читать символ “<"

Мне было интересно, намеренно ли это поведение в пакете rvest . Когда rvest видит символ < он перестает читать HTML. library(rvest) read_html(“under 30 years = < 30 years “) Печать: [1] \n under 30 = \n Если это намеренно, есть ли обходной путь?

Итерация через DOM с помощью BeautifulSoup / Python

У меня этот DOM: Main Section Bla bla bla Subsection Some more info Subsection 2 Even more info! Main Section 2 bla Subsection Some more info Subsection 2 Even more info! Я хотел бы сгенерировать iterator, который возвращает «Main Section», «Bla bla bla», «Subsection» и т. Д. Есть ли способ сделать это с помощью BeautifulSoup?

BeautifulSoup не работает, получая ошибку NoneType

Я использую следующий код (взятый из получения ссылок с веб-страницы с использованием python и BeautifulSoup ): import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request(‘http://www.nytimes.com’) for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer(‘a’)): if link.has_attr(‘href’): print link[‘href’] Однако я не понимаю, почему я получаю следующее сообщение об ошибке: Traceback (most recent call last): […]

как извлечь текст из элемента html по id и назначить переменной php?

У меня есть это: hello и я хочу извлечь слово hello, используя свой id и назначить это php var, но у меня нет идеи. Если бы это был вход, было бы легче, но я использовал бы другой элемент

Как я могу разобрать удаленную страницу html, используя чистый скрипт java

У меня есть требование для парсинга удаленной html-страницы (например: www.mywesite.com/home), как я могу получить этот сайт html-страницы сайта и как я могу разобрать эту страницу что html подобен этому hello hey bye я хочу, чтобы hello hey bye Я не использую какую-либо технологию на стороне сервера (например, java, .net), я хочу достичь этого, используя только […]

Может ли прекрасный выход супа быть отправлен в браузер?

Я довольно новичок в том, что python был представлен недавно, но имеет большой опыт работы с php. Одна вещь, которую php собирается использовать при работе с HTML (не удивительно), заключается в том, что оператор echo выводит HTML в браузер. Это позволяет использовать встроенные средства разработки браузера, такие как firebug. Есть ли способ перенаправить вывод python […]

Разбор html-документа с использованием XML-парсера

Могу ли я анализировать HTML-файл с помощью синтаксического анализатора XML? Почему я могу это сделать. Я знаю, что XML используется для хранения данных и что HTML используется для отображения данных. Но синтаксически они почти идентичны. Предполагаемое использование заключается в создании парсера HTML, который является частью приложения веб-искателя

Анализ HTML-файла в R

Я хочу читать HTML-файлы с веб-сайта. В частности, я хочу читать книги в формате HTML с сайта gutenberg.org. Заголовок каждой главы отмечен тегом «h2», а содержание каждой главы следует в тегах абзаца «p» после «h2». Используя пакет XML, я могу получить значения или полный HTML-код для каждого тега. Вот пример кода с помощью Middlemarch Джорджа […]

Отсутствует

Я пытаюсь получить ссылку на ссылку для загрузки исторических данных из Yahoo Finance для актива в течение определенного периода времени. С 1 января 1999 года по настоящее время. Так, например, если я пойду сюда: https://finance.yahoo.com/quote/XLB/history?period1=915177600&period2=1498633200&interval=1d&filter=history&frequency=1d Я хотел бы приобрести это (из ссылки «Загрузить данные» над таблицей данных): “https://query1.finance.yahoo.com/v7/finance/download/XLB?period1=915177600&period2=1498633200&interval=1d&events=history&crumb=iX6bJ6LfGxc” Я использую BeautifulSoup и сталкиваюсь с проблемой […]

Извлечение тегов HTML (span) с использованием Jsoup в Java

Я пытаюсь извлечь имя td и class span. В примере кода я хочу извлечь href в первом td «аксессуар» и теге span во втором td. Я хочу печатать Мышь, есть-есть, да, KeyBoard, Нет Двойной монитор, есть-есть, Да Когда я использую приведенный ниже код Java, я получаю, Mouse Yes Keyboard No Dual-Monitor Да. Как получить имя […]