Замена HTML-тегов с использованием регулярных выражений и python

У меня есть сценарий Python, который будет смотреть на файл HTML, который имеет следующий формат:

  ...     ...   

Как удалить все tags HTML (заменить tags на «) за исключением открывающих и закрывающих тегов DOC с использованием регулярного выражения в Python? Кроме того, если я хочу сохранить альт-текст тега, каково должно быть выражение регулярного выражения?

поиск и замена с помощью этого регулярного выражения: поиск: < . *?> заменить на: ”

Для чего вы пытаетесь выполнить, я бы использовал BeautifulSoup вместо регулярного выражения.

http://www.crummy.com/software/BeautifulSoup/

Проверьте lxml , действительно красивую библиотеку python для работы с xml. Вы можете использовать drop_tag для выполнения того, что вы ищете.

 из lxml import html 
 h = html.fragment_fromstring (' Hello  World!  ')
 h.find ( '*'). drop_tag ()
 print (html.tostring (h, encoding = unicode))

  Hello World!