Articles of html parsing

Использование Beautiful Soup для преобразования атрибутов CSS в отдельные атрибуты HTML?

Я пытаюсь написать программу, которая возьмет HTML-файл и сделает его более удобным для электронной почты. Сейчас все преобразования выполняются вручную, потому что ни один из онлайн-конвертеров не делает именно то, что нам нужно. Это звучало как отличная возможность подтолкнуть пределы моих знаний о программировании и на самом деле сделать что-то полезное, поэтому я предложил попробовать […]

Извлечь внутренний элемент без цикла

Извлечение значения href из следующего образца кода HTML является прямым, если я прохожу через все и разбить сразу после первого: First Details: First Details: Я, конечно, могу это сделать, когда могу предположить, что значение href идентично для обоих экземпляров как в приведенном выше примере. Однако этот подход терпит неудачу, если они не идентичны, и я […]

Удалить атрибуты с помощью HtmlAgilityPack

Я пытаюсь создать fragment кода, чтобы удалить все атрибуты style независимо от тега, используя HtmlAgilityPack . Вот мой код: var elements = htmlDoc.DocumentNode.SelectNodes(“//*”); if (elements!=null) { foreach (var element in elements) { element.Attributes.Remove(“style”); } } Однако, я не заставляю его держаться? Если я посмотрю на element сразу после Remove(“style”) . Я вижу, что атрибут стиля […]

Преобразование списка HTML в вложенный список Python

Если у меня есть вложенный html (неупорядоченный) список, который выглядит так: Page1_Level1 Page1_Level2 Page1_Level3 Page2_Level3 Page3_Level3 Page2_Level1 Page2_Level2 Как создать вложенный список из Python? Например: [“https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page1_Level1.html”, [“https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page1_Level2.html”, [“Page1_Leve3.html”, “https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page2_Level3.html”, “https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page3_Level3.html”]], “https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page2_Level1.html”, [“https://stackoverflow.com/questions/24216263/converting-html-list-to-nested-python-list/Page2_Level2.html”]] Я предполагаю, что библиотеки, такие как Beautiful Soup и HTML Parser, имеют возможности сделать это, но я не смог понять это. Спасибо за […]

Различия между .text и .get_text ()

В BeautifulSoup существует ли разница между .text и .get_text() ? Какой из них должен быть предпочтительным для получения текста элемента? >>> from bs4 import BeautifulSoup >>> >>> html = “text1 text2” >>> soup = BeautifulSoup(html, “html.parser”) >>> div = soup.div >>> div.text ‘text1 text2’ >>> div.get_text() ‘text1 text2’

Разбор Html с JSoup

Я пытаюсь проанализировать html следующего URL-адреса: http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/ для получения текста тега « », который содержит имя инструктора. Необходимая информация находится внутри тегов « », но я не могу получить tags с помощью JSoup. Я понятия не имею, что я делаю неправильно, потому что когда я сохраняю тег в объекте Element, вызывается его «b», и я […]

Как минимизировать HTML-код?

Моя идея – как-то минимизировать HTML-код на стороне сервера, поэтому клиент получает меньше байтов. Что я подразумеваю под «minify»? Не молнии. Более того, например, создатели jQuery используют версии .min .js . Другими словами, мне нужно удалить ненужные пробелы и новые строки, но я не могу так сильно удалить представление HTML-изменений (например, удалить пробелы между фактическими […]

Анализ HTML с помощью Python 2.7 – HTMLParser, SGMLParser или Beautiful Soup?

Я хочу сделать скриншоты с помощью Python 2.7, и у меня нет никакого контекста для различий между HTMLParser , SGMLParser или Beautiful Soup. Все ли они пытаются решить ту же проблему или существуют они по разным причинам? Самый простой, наиболее надежный и который (если есть) является выбором по умолчанию? Также, пожалуйста, дайте мне знать, если […]

php regex для извлечения данных из таблицы HTML

Я пытаюсь сделать регулярное выражение для вывода некоторых данных из таблицы. код, который у меня есть сейчас: quote1 have you trying it off and on again ? quote65 You wouldn’t steal a helmet of a policeman Это я хочу заменить на: quote1: вы пытаетесь снова и снова? quote65: Ты бы не воровал шлем полицейского код, […]

Что означает HTML Parsing?

Я слышал о библиотеках HTML Parser, таких как Simple HTML DOM и HTML Parser. Я также слышал о вопросах, содержащих HTML Parsing. Что означает синтаксический анализ HTML?