HTML->text

23.07.2008

Задача: подручными средствами из HTML-кода страницы получить максимально простое (но пригодное для человеческого восприятия) текстовое представление (с разбиением на абзацы, форматированием списков и т.п.).

Решение:

  • xsltproc (часть пакета libxslt в большинстве дистрибутивов Linux);
  • XSL-шаблон в полсотни строк, включая достаточно подробные комментарии, на написание которого был потрачен дождливый питерский вечер.

Небольшой нюанс: запускать xsltproc нужно с опцией --html, указывающей оному на соответствующий формат входного документа. Пример:

$ xsltproc --html ./html-split.xsl ./test.html > result.txt

Категории: Технологии

Trackback URI | Comments RSS

Оставить комментарий

Powered by WP Hashcash