Articles of html parsing

Выделите точное местоположение содержимого в html для веб-скрепок urllib2 Beautiful Soup

Я новичок в веб-очистке, мало подвержен html-файловым системам и хотел узнать, есть ли более эффективный способ поиска необходимого содержимого в html-версии веб-страницы. В настоящее время я хочу просмотреть обзоры для продукта здесь: http://www.walmart.com/ip/29701960?wmlspartner=wlpa&adid=22222222227022069601&wl0=&wl1=g&wl2=c&wl3=34297254061&wl4=&wl5=pla&wl6=62272156621&veh=sem Для этого у меня есть следующий код: url = http://www.walmart.com/ip/29701960? wmlspartner=wlpa&adid=22222222227022069601&wl0=&wl1=g&wl2=c&wl3=34297254061&wl4=&wl5=pla&wl6=6227215 6621&veh=sem review_url = url #print review_url #————————————————————————- # Scrape the ratings […]

Почему этот тег пуст, когда разбирается с красивым супом?

Я разбираю эту страницу с красивым супом: https://au.finance.yahoo.com/q/is?s=AAPL Я пытаюсь получить общий доход за 27/09/2014 (42,123,000), который является одним из первых значений в заявлении в верхней части. Я проверил элемент в хром-инструментах и ​​обнаружил, что значение находится в таблице с именем classа yfnc_tabledata1 . Мой код python выглядит следующим образом: import requests import bs4 #get […]

Извлечь имя тега HTML из строки

Я хочу извлечь имя тега из тега HTML с атрибутами. Например, у меня есть этот тег и мне нужно извлечь имя тега a Я пробовал следующее регулярное выражение, но оно не работает. if ( $raw =~ /^$/ ) { print “$1 is tag name of string\n”; } Что не так с моим кодом?

Как программно загружать HTML-документ, чтобы добавить к нему ?

Мы поставляем файлы HTML-оболочки с клиентом, которые нужно вставлять в контент, а затем визуализировать HTML. Прежде чем мы добавим HTML-код в наш контент, мне нужно добавить несколько тегов в раздел оболочки клиента, например ссылки на наши файлы сценариев, css и некоторые метаtags. Так что я делаю string html = File.ReadAllText(wrapperLocation, Encoding.GetEncoding(“iso-8859-1”)); и теперь у меня […]

Python как искать и исправлять tags и атрибуты html?

Я должен исправить все закрывающие tags как показано в тексте ниже. Вместо закрытия с помощью a > , он должен закрыться с /> . Есть ли простой способ поиска всех в этом тексте и исправить > ? (Если он уже закрыт с помощью /> то никаких действий не требуется). Другой вопрос, если не указано «ширина» […]

Как легко разобрать HTML для потребления в качестве сервиса с помощью Java?

Я хочу проанализировать HTML, например http://www.reddit.com/r/reddit.com/search?q=Microsoft&sort=top и только хотите извлечь текст элемента, который имеет <a class="title" Параметры, которые я просматривал до сих пор, выглядят как overkill (SAX, DOM traversal).

Функция rread package read_html () перестает читать символ “<"

Мне было интересно, намеренно ли это поведение в пакете rvest . Когда rvest видит символ < он перестает читать HTML. library(rvest) read_html(“under 30 years = < 30 years “) Печать: [1] \n under 30 = \n Если это намеренно, есть ли обходной путь?

Итерация через DOM с помощью BeautifulSoup / Python

У меня этот DOM: Main Section Bla bla bla Subsection Some more info Subsection 2 Even more info! Main Section 2 bla Subsection Some more info Subsection 2 Even more info! Я хотел бы сгенерировать iterator, который возвращает «Main Section», «Bla bla bla», «Subsection» и т. Д. Есть ли способ сделать это с помощью BeautifulSoup?

BeautifulSoup не работает, получая ошибку NoneType

Я использую следующий код (взятый из получения ссылок с веб-страницы с использованием python и BeautifulSoup ): import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request(‘http://www.nytimes.com’) for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer(‘a’)): if link.has_attr(‘href’): print link[‘href’] Однако я не понимаю, почему я получаю следующее сообщение об ошибке: Traceback (most recent call last): […]

как извлечь текст из элемента html по id и назначить переменной php?

У меня есть это: hello и я хочу извлечь слово hello, используя свой id и назначить это php var, но у меня нет идеи. Если бы это был вход, было бы легче, но я использовал бы другой элемент

Intereting Posts
Как передать переменную python переменной html? Можно ли создавать html-tags h7, h8, h9 и т. Д. Разбирайте HTML-файл, чтобы захватить все идентификаторы и classы для файла CSS Применение непрозрачности к вложенному элементу списка для эффекта затухания с использованием CSS3 Позиции элементов при изменении размера браузера или масштабировании в / из Диалоговое окно jQueryUI скрывает кнопку закрытия (X), если заголовок содержит выравнивание по правому краю текста. Как я могу это исправить? Как выбрать название удаленной веб-страницы Удаление фонового изображения в фокусе ввода текста Измените кнопки со стрелками в слайдере Slick Как заставить txt-файл читать HTML-документ браузерами? Создание изображения действует как кнопка Как отправить форму в Semantic UI? почему нельзя использовать \ “в теге ввода HTML? Блестящий размер приложения в ioslides Как я могу полностью проверить свой сайт на предыдущих версиях IE с IE 11?