HTML->text
23.07.2008
Задача: подручными средствами из HTML-кода страницы получить максимально простое (но пригодное для человеческого восприятия) текстовое представление (с разбиением на абзацы, форматированием списков и т.п.).
Решение:
- xsltproc (часть пакета libxslt в большинстве дистрибутивов Linux);
- XSL-шаблон в полсотни строк, включая достаточно подробные комментарии, на написание которого был потрачен дождливый питерский вечер.
Небольшой нюанс: запускать xsltproc нужно с опцией --html, указывающей оному на соответствующий формат входного документа. Пример:
$ xsltproc --html ./html-split.xsl ./test.html > result.txt

