Re: Что есть для обработки html в командной строке?
- To: debian-russian@lists.debian.org
- Subject: Re: Что есть для обработки html в командной строке?
- From: Serhiy Storchaka <storchaka@gmail.com>
- Date: Sat, 18 Apr 2009 12:52:19 +0300
- Message-id: <gsc7kn$tjb$1@ger.gmane.org>
- References: <20090404102357.GC15362@localhost> <8d670f910904040451m45158fb9q5da89e5d587319@mail.gmail.com> <20090404160949.GE15362@localhost> <20090407104620.GI15362@localhost> <20090407171424.GA31120@laptop.local> <20090408060928.GP15362@localhost> <20090415190516.GA8483@laptop.local> <20090416065841.GA23723@localhost> <gs9j0q$pq0$1@ger.gmane.org> <20090417152316.GE14570@localhost>
Тихон Тарнавский wrote:
> On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote:
>> -asxml и добиться, чтобы кодировка была указана правильная (возможно
>> только utf-8). Возможно вручную перекодировать и приклеить <?xml
>> version="1.0" encoding="utf-8"?> до или после tidy.
> Первое что попробовал. Увы.
Некоторые html так плохи, что tidy отказывается с ними работать. Как
заставить его игнорировать все ошибки, я не знаю.
В Konqueror есть плагин, позволяющий сохранить страницу в war-файле (Web
Archive, обычный tar.gz на самом деле). При этом он её как-то
преобразовывает, вероятно получается корректный html или xhtml. Возможно
удастся как-то задействовать его и в автоматическом режиме, через dcop или
что-то в этом роде. Аналогичной функциональности в других браузерах я не
нашёл.
Reply to: