Re: Обработка книг формата fb2

To: debian-russian@lists.debian.org
Subject: Re: Обработка книг формата fb2
From: Serhiy Storchaka <storchaka@gmail.com>
Date: Thu, 11 Feb 2010 23:56:45 +0200
Message-id: <[🔎] hl1tq6$31o$1@ger.gmane.org>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] 201002112250.34705.pechnikov@mobigroup.ru>

Alexey Pechnikov wrote:
> В процессе обработки выяснилось, что библиотеки содержат жуткую смесь
> валидных и невалидных документов. Пытаюсь выправить чем-то вроде
>  
> exec cat "$2" | enconv | sed 's/<?xml version="1.0" encoding=.*/<?xml
> version="1.0" encoding="utf-8"?>/' | tidy -q -xml -utf8 2>/dev/null |
> xsltproc "$STYLE" -
> 
> но и так не все документы успешно преобразуются, выдавая ошибки xml. Может
> ли кто предложить лучший способ? Замечу, что исходный контент мы не
> модифицируем, необходимо все преобразования выполнять на лету и побыстрее
> (выше приведенная штука ощутимо тормозит). С кодировками вроде проблема
> решена с помощью enconv.

Если дело только в амперсанде, поможет
sed -e 's/&/\&amp;/g;s/&amp;amp;/\&amp;/g'

Если хуже — написать собственный парсер, аналог tidy.

enconv не справится с документами, где текст в latin1, кодировка указана
windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
подобные ошибки.

Reply to:

Follow-Ups:
- Re: Обработка книг формата fb2
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Обработка книг формата fb2
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>

Prev by Date: Re: 2.6.32-5-ADSL-соединение не работает.Модем найден.pppoeconf не находит
Next by Date: Re: Обработка книг формата fb2
Previous by thread: Обработка книг формата fb2
Next by thread: Re: Обработка книг формата fb2
Index(es):
- Date
- Thread