Articles of html parsing

Анализ HTML-страницы для ссылок с использованием регулярных выражений с использованием Perl

Возможный дубликат: Как удалить внешние ссылки из HTML с помощью Perl? Хорошо, я сейчас работаю над работой для клиента, который просто переключил свой выбор языка на Perl. Я не лучший в Perl, но я уже делал такие вещи, как раньше, хотя и недавно. Существует множество ссылок: Death Becomes Her (1992) Я хочу совместить путь «/ […]

JSOUP HTML Parser

Есть ли способ получить начальную строку и номер столбца, а также конечную строку и номер столбца элемента / тега? Я создаю HTML-редактор, который должен выделить тег для оптимизации скорости на основе некоторого сценария с учетом начального и конечного строк и номера столбца .

Удаление html-тегов при обходе wikipedia с помощью urllib2 и Beautifulsoup на python

Я пытаюсь просканировать wikipedia, чтобы получить некоторые данные для интеллектуального анализа текста. Я использую python urllib2 и Beautifulsoup. Мой вопрос в том, что: есть ли простой способ избавиться от ненужных тегов (например, ссылок «a» или «span») из прочитанного мной текста. для этого сценария: import urllib2 from BeautifulSoup import * opener = urllib2.build_opener() opener.addheaders = [(‘User-agent’, […]

Как игнорировать закрытые tags в XML или HTML?

Я пишу парсер в Haskell для сайта, используя пакеты Text.XML и Text.XML.Cursor. Есть закрытые tags и получить сообщение об ошибке: Main.hs: Ошибка синтаксического анализа XML-файла dat.html: 29: 1-29: 8: Ожидаемый конечный элемент для: Name {nameLocalName = “br”, nameNamespace = Nothing, namePrefix = Nothing}, но получен: EventEndElement (Name {nameLocalName = “body”, nameNamespace = Nothing, namePrefix = […]

Проблема с html-тегами при очистке данных с помощью красивого супа

Общая часть кода: # -*- coding: cp1252 -*- import csv import urllib2 import sys import time from bs4 import BeautifulSoup from itertools import islice page = urllib2.urlopen(‘http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html’).read() soup = BeautifulSoup(page) prices = soup.findAll(‘div’, {“class”: “price”}) После этого я пытаюсь использовать следующие коды для получения данных: Код 1: for price in prices: print unicode(price.string).encode(‘utf8’) Output1: No […]

Как получить сиротский текст с Jsoup?

У меня есть html: This is the first text More text here Another line of text Text in the span Another text in span This is another line Я хочу получить все тексты в порядке, что-то вроде этого массива: [ “Span:This is the first text”, “More text here”, “Another line of text”, “Span:Text in the […]

Как разобрать простой html-код с помощью jsoup? андроид

Это часть моего html-кода dr James – opiekun naukowy Kevin – prezes Lucy – wice prezes Zarząd Во-первых, я хочу анализировать текст из тегов в этом div. Было бы неплохо, если бы вы помогли мне разобрать изображения в этом div (я изменил URL-адрес изображения из-за конфиденциальности). Я новичок в jsoup, поэтому буду благодарен, если вы […]

Как получить html-код с веб-страницы (другой домен)?

Как я могу создать скрипт javascript, который позволяет мне получить HTML-код другой страницы из другого домена и позволяет мне редактировать и отображать код? Заранее спасибо.

Jsoup: извлечение внутреннего текста из метки привязки

Вот моя проблема. У меня есть html-контент: innerText Мне нужно извлечь «innerText». Пробовав это в Jsoup, я обнаружил, что внутренний текст выходит за пределы привязанного тега при анализе Jsoup. Вот мой код Document doc=Jsoup.parse(” innerText “); System.out.println(doc.html()); вывод: innerText почему «innerText» перемещается за пределы привязанного тега?

Синтаксис регулярного выражения с переменным порядком

Есть ли способ указать, что две или несколько фраз регулярных выражений могут возникать в любом порядке? Например, атрибуты XML могут быть записаны в любом порядке. Скажем, что у меня есть следующий XML: Home Home Как мне написать совпадение, проверяющее class и заголовок, и работает для обоих случаев? Я в основном ищу синтаксис, который позволяет мне […]