Удаление пробелов и новых строк между тегами в html (aka unformatting) в python

Пример:

Hello

hgello
 code code 
 

превращается в что-то вроде:

 

Hello

hgello
 code code 
 

Как это сделать в python? Я также интенсивно использую tags

, поэтому замена всех '\ n' на '' не является вариантом. 

Каков наилучший способ сделать это?

Вы можете использовать re.sub(">\s*< ",">< ","[here your html string]") .

Возможно, string.replace(">\n",">") , то есть найдите прилагаемую скобку и новую строку и удалите новую строку.

Я бы предпочел использовать регулярное выражение python:

 string.replace(">\s+< ",">< ") 

Где «\ s» находит любой символ пробела и «+» после того, как он показывает, что он соответствует одному или нескольким символам пробелов. Это устраняет возможность замены замены

 
 code code 

с

 


Более подробную информацию о регулярных выражениях можно найти здесь , здесь и здесь .