Я использую пакет гибкости HTML для преобразования
This is a test
в
This is a test
используя этот код:
HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(html); string stripped = doc.DocumentNode.InnerText;
но я столкнулся с проблемой, когда у меня есть это:
This is a test & this is a joke
и приведенный выше код преобразует это в
This is a test & this is a joke
но я хотел, чтобы он преобразовал его в:
This is a test & this is a joke
пакет html agility поддерживает то, что я пытаюсь сделать? почему код HTML agiligy не делает это по умолчанию, или я делаю что-то неправильно?
Вы можете запустить HttpUtility.HtmlDecode()
на выходе.
Однако обратите внимание, что InnerText
будет включать tags HTML, которые могут содержаться внутри самого внешнего тега. Если вы хотите удалить все tags, вам придется пройтись по дереву документов и получить по всему тексту весь текст.