Форматируем электронные книгиАвтор: Victor Kviat <victor.kviat@bigfoot.com>
Ни для кого не секрет, что посетители MyPsion.ru часто используют свои машинки для чтения электронных книг. Как правило электронные книги делаются своими руками, и здесь нельзя не упомянуть статью "Делаем электронные книги".
Для того, чтобы в дальнейшем было ясно, о чем идет речь, позволю себе напомнить технологию изготовления книжек. Для этого используются две программы: Elbikon и TCR.
В качестве исходного материала используются тексты из "Библиотеки Мошкова", выгружаемые в формате HTML. Эти данные обрабатываются программой Elbikon, которая вычищает HTML-теги из исходного текста. Подробнее - см. вышеупомянутую статью. Затем идет сжатие .txt файла в .tcr, и книжка готова. Все, казалось бы, неплохо, но у полученных книжек обнаруживаются некоторые недостатки:
- исходные документы, как правило, сформатированы на разную длину строки. Эта длина строки передается в выходной документ. В итоге при просмотре книжки на Псионе длинные строки документа не помещаются в экранную строку и переформатируются программой eBook так, что получаются достаточно противные "огрызки" строк, которые к тому же заметно ухудшают восприятие книги. Короткие же строки не заполняют экран в тех ситуациях, когда реальный абзац мог бы быть переформатирован для более полного использования площади экрана.
- попытка подбора размера шрифта при изменении освещения (при плохом освещении хочется шрифт побольше, а при хорошем - поменьше) приводит к тому, что первый недостаток становится еще более заметным.
Детальный анализ выходного файла программы Elbikon показал, что структура абзацев в выходном документе нарушена: каждая строка фактически является отдельным абзацем, что и порождает описанные проблемы. В то же время выяснилось, что концы строк и истинные концы абзацев оформлены по-разному, что позволило написать маленькую утилиту (постпроцессор) для программы Elbikon, сливающую все строки одного абзаца в одну. Это решает все проблемы, о которых я говорил. Далее файл обрабатывается, как обычно, программой TCR, и... вуаля!
При чтении документов программой eBook (VReader я не пробовал) абзацы переформатируются автоматически в зависимости от выбранного шрифта, его размера, наличия или отсутствия Тулбара и скроллера на экране. Так это выглядит на Псионе:
Короткие строки до обработки:

И после:

Видим, что, во-первых, экран используется более полно по ширине и, как следствие, на экран теперь помещается на одну строку больше.
Длинные строки до обработки:

И после:

Различия очевидны ;)
Понятно, что существует довольно много документов, в которых необходимо сохранять исходное форматирование: техдокументация, специальная справочная литература и т.п. Но для художественной литературы предлагаемое решение позволит (надеюсь) заметно улучшить жизнь любителям чтения.
Использование программы предельно просто. В окне MS-DOS выполните следующую командную строку:
>paragrph <входной файл> <выходной файл>
где входной файл - файл, полученный обработкой исходного HTML документа программой Elbikon, а выходной файл подается на вход программы TCR.
Замечание: если Вы практикуете предварительное редактирование документов, с тем, чтобы удалить из них всякую служебную информации, перед сжатием в .tcr, делайте это только после обработки предлагаемой программой. Это необходимо соблюдать, т.к. текстовые процессоры исправляют неправильно оформленные концы строк, что усложняет их последующую обработку.
Дата статьи: | 2 сентября 2002 г |
« Назад в каталог | Обсудить в конференции »
|