Articles of beautifulsoup

Невозможно очистить текст от определенного элемента LI

Я очищаю этот URL . Мне нужно очистить основное содержимое страницы, например, Room Features и Internet Access Вот мой код: for h3s in Column: # Suppose this is div.RightColumn for index,test in enumerate(h3s.select(“h3”)): print(“Feature title: “+str(test.text)) for v in h3s.select(“ul”)[index]: print(v.string.strip()) Этот код сбрасывает все , но когда дело доходит до очистки Интернет-доступа, я получаю […]

BeautifulSoup не возвращает, когда элемент определенно существует

Я новичок в веб-соскабливании и использую BeautifulSoup для очистки ежедневных ставок по ипотечным кредитам. Тем не менее, многие сайты servicer, которые я пытаюсь очистить, возвращают «none» или пустой список. Теги, которые я пытаюсь очистить, определенно существуют, и я просто не понимаю, почему это происходит. Ниже приведен пример. html=urlopen(‘https://www.popular.com/en/mortgages/’) bs0bj=BeautifulSoup(html, ‘html.parser’); rate=bs0bj.find(‘span’, {‘class’:’text-md text-popular-medium-blue’}).div print(rate)

beautifulsoup анализирует каждый html-файл в папке webscrapping

Моя задача – прочитать каждый html-файл из каталога. Условия заключаются в том, чтобы определить, содержит ли каждый файл tags (1) OO (2) QQ затем

Есть ли способ найти самый появившийся / общий стиль span в python beautifulsoup?

Поскольку мне нужно продолжить много PDF-файлов с разными стилями, у меня есть предположения о том, что основное содержимое будет находиться под наиболее распространенным / общим стилем span. Есть ли способ найти самый появившийся стиль span в python beautifulsoup? Это команда, которую я использовал для определения определенного стиля span: font-family: CBCDEE+ArialMT; font-size:12px’: spans = soup.find_all(‘span’, attrs={‘style’: […]

Beautifulsoup не может извлечь данные, используя attrs = class

Я извлекаю данные для исследовательского проекта, и я успешно использовал findAll(‘div’, attrs={‘class’:’someClassName’}) на многих веб-сайтах, но этот конкретный веб-сайт, Ссылка на сайт не возвращает никаких значений, когда я использовал параметр attrs. Но когда я не использую параметр attrs, я получаю весь html dom. Вот простой код, который я начал, чтобы проверить его: soup = bs(urlopen(url)) […]

Как перечислить все строки, содержащие PA / внутри html-файла, используя красивый суп

У меня есть программа, которая конвертирует pdf-файлы в html, и мне нужно было дополнить эту программу, поэтому после преобразования она будет искать tags PA / и персонажа перед ним и сохранять эти tags и символы в CSV-файле, я пытаюсь сделай это, но я не могу, мог бы кто-нибудь помочь мне, пожалуйста? Вот код: import shlex […]

Невозможно очистить сайт этого фильма с помощью BeautifulSoup

Я пытаюсь отменить сайт фильма здесь: http://www.21cineplex.com/nowplaying Я загрузил скриншот с телом HTML в качестве изображения в этом вопросе. ссылка на скриншот здесь У меня возникли трудности с попыткой захватить название фильма и описание, которое является частью . По какой-то странной причине описание не является частью объекта запросов. Также, когда я пытался использовать суп для […]

соскабливание другой таблицы с теми же classами с помощью beautifulsoup, python

я пытаюсь извлечь, используя красивый суп и питон, все шансы с этого сайта http://www.sportstats.com/soccer/italy/serie-a-2013-2014/sampdoria-napoli-zZAT2c14/#odds/1X2/s3 они делятся на разные таблицы в зависимости от типа, которым они являются. Пример: первая таблица под div id = “betType_1_2” представляет собой коэффициенты типа 1X2 “full time” Я попытался найти все class = “odds”, но он также возвращает коэффициенты из других […]

BeautifulSoup в Python не разбирается правильно

Я запускаю Python 2.7.5 и использую встроенный синтаксический анализатор html для того, что я собираюсь описать. Задача, которую я пытаюсь выполнить, – взять кусок html, который по сути является рецептом. Вот пример. html_chunk = ” Miniature Potato Knishes Posted by bettyboop50 at recipegoldmine.com May 10, 2001 Makes about 42 miniature knishes These are just yummy […]

Удалить высоту и ширину из встроенных стилей

Я использую BeautifulSoup для удаления встроенных высот и ширины из моих элементов. Решить его для изображений было просто: def remove_dimension_tags(tag): for attribute in [“width”, “height”]: del tag[attribute] return tag Но я не уверен, как это сделать: когда я хочу оставить фоновый цвет (например) или любые другие атрибуты стиля, отличные от высоты или ширины. Единственный способ, […]