Intereting Posts
Как запретить браузеру заполнять поля формы кеширования? Как остановить Outlook от рендеринга адреса электронной почты в качестве ссылки mailto: link? HTML Как переход между страницами Firefox отказывается от элемента стиля, если селектор CSS содержит элемент адреса Как я могу воспроизводить видео в формате HTML в формате HTML? Javascript / JQuery удалить из tabindex Является ли оно допустимым для вложенности внутри ? v-bind error: v-bind ‘- необъявленный префикс Должен ли быть установленный в форме? Если условия IE IE не работают Сравнение безопасности eval и innerHTML для клиентского javascript? Организационная диаграмма – дерево, онлайн, динамическое, складное, картинки – в D3 Почему в этом примере нет единичной высоты линии в зависимости от процента или em? Как вертикально выравнивать изображение и текст в DIV с помощью CSS? Как сделать работу с гибким концом в IE11

Удалить tags html в sed или аналогичных

Я пытаюсь получить содержимое таблицы с wepage. Мне нужно содержимое, но не tags

. Мне даже не нужно «tr» или «td» только содержимое. например:

  I want only this   and also this   only texts/numbers in between tags and not the tags. 

также я хотел бы разместить первый вывод столбца, как это, в новом столбце csv file1, info1, info2, info3 coumn2, info1, info2, info3

Я попробовал sed удалять patters

но когда я получаю таблицу, есть и другие tags, такие как и т. Д., Поэтому я хочу удалить все tags; вкратце все с .

sed 's/< [^>]\+>//g' удалит все tags, но вы можете заменить их пространством, поэтому tags, которые находятся рядом друг с другом, не работают вместе:

one two

становится: onetwo . Таким образом, вы могли бы сделать sed 's/< [^>]\+>/ /g' чтобы он выводил one two (ну, фактически, one two ).

Тем не менее, если вам не нужен только сырой текст, и кажется, что вы пытаетесь сделать некоторые преобразования в данные после удаления дескрипторов, язык сценариев, такой как Perl, может быть более подходящим инструментом для этого.

Поскольку mu слишком коротко упоминается, очистка HTML может быть немного рискованной, используя что-то, что на самом деле анализирует HTML, потому что вы были бы лучшим способом сделать это. PHP DOM API довольно хорош для таких вещей.

Оригинал:

Mac Terminal REGEX ведет себя по-другому. Я смог сделать это на своем Mac, используя следующий пример:

 $ curl google.com | sed 's/< [^>]*>//g' % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 219 100 219 0 0 385 0 --:--:-- --:--:-- --:--:-- 385 301 Moved 301 Moved The document has moved here. $ bash --version GNU bash, version 3.2.57(1)-release (x86_64-apple-darwin14) Copyright (C) 2007 Free Software Foundation, Inc. 

Редактировать:

Просто для разъяснения, оригинал выглядел так:

 $ curl googl.com  301 Moved 

301 Moved

The document has moved here.

Также раздражающий заголовок завитка можно избавиться от использования опции -s:

 $ curl -s google.com | sed 's/< [^>]*>//g' 301 Moved 301 Moved The document has moved here. $