Форматируем электронные книги: Статьи о Psion

Форматируем электронные книги

Автор: Victor Kviat <victor.kviat@bigfoot.com>

Ни для кого не секрет, что посетители MyPsion.ru часто используют свои машинки для чтения электронных книг. Как правило электронные книги делаются своими руками, и здесь нельзя не упомянуть статью "Делаем электронные книги".

Для того, чтобы в дальнейшем было ясно, о чем идет речь, позволю себе напомнить технологию изготовления книжек. Для этого используются две программы: Elbikon и TCR.

В качестве исходного материала используются тексты из "Библиотеки Мошкова", выгружаемые в формате HTML. Эти данные обрабатываются программой Elbikon, которая вычищает HTML-теги из исходного текста. Подробнее - см. вышеупомянутую статью. Затем идет сжатие .txt файла в .tcr, и книжка готова. Все, казалось бы, неплохо, но у полученных книжек обнаруживаются некоторые недостатки:
- исходные документы, как правило, сформатированы на разную длину строки. Эта длина строки передается в выходной документ. В итоге при просмотре книжки на Псионе длинные строки документа не помещаются в экранную строку и переформатируются программой eBook так, что получаются достаточно противные "огрызки" строк, которые к тому же заметно ухудшают восприятие книги. Короткие же строки не заполняют экран в тех ситуациях, когда реальный абзац мог бы быть переформатирован для более полного использования площади экрана.
- попытка подбора размера шрифта при изменении освещения (при плохом освещении хочется шрифт побольше, а при хорошем - поменьше) приводит к тому, что первый недостаток становится еще более заметным.

Детальный анализ выходного файла программы Elbikon показал, что структура абзацев в выходном документе нарушена: каждая строка фактически является отдельным абзацем, что и порождает описанные проблемы. В то же время выяснилось, что концы строк и истинные концы абзацев оформлены по-разному, что позволило написать маленькую утилиту (постпроцессор) для программы Elbikon, сливающую все строки одного абзаца в одну. Это решает все проблемы, о которых я говорил. Далее файл обрабатывается, как обычно, программой TCR, и... вуаля!

При чтении документов программой eBook (VReader я не пробовал) абзацы переформатируются автоматически в зависимости от выбранного шрифта, его размера, наличия или отсутствия Тулбара и скроллера на экране. Так это выглядит на Псионе:

Короткие строки до обработки:
Форматируем электронные книги: картинка #1 (7001 байт)

И после:
Форматируем электронные книги: картинка #2 (7755 байт)

Видим, что, во-первых, экран используется более полно по ширине и, как следствие, на экран теперь помещается на одну строку больше.

Длинные строки до обработки:
Форматируем электронные книги: картинка #3 (6533 байт)

И после:
Форматируем электронные книги: картинка #4 (8528 байт)

Различия очевидны ;)

Понятно, что существует довольно много документов, в которых необходимо сохранять исходное форматирование: техдокументация, специальная справочная литература и т.п. Но для художественной литературы предлагаемое решение позволит (надеюсь) заметно улучшить жизнь любителям чтения.

Использование программы предельно просто. В окне MS-DOS выполните следующую командную строку:

    >paragrph <входной файл> <выходной файл>
где входной файл - файл, полученный обработкой исходного HTML документа программой Elbikon, а выходной файл подается на вход программы TCR.

Замечание: если Вы практикуете предварительное редактирование документов, с тем, чтобы удалить из них всякую служебную информации, перед сжатием в .tcr, делайте это только после обработки предлагаемой программой. Это необходимо соблюдать, т.к. текстовые процессоры исправляют неправильно оформленные концы строк, что усложняет их последующую обработку.

Дата статьи: 2 сентября 2002 г

« Назад в каталог | Обсудить в конференции »
[На главную] [Обновления] [Новости] [Клуб] [Обзоры программ] [Советы] [Обзоры железа] [SIBO] [Конференция] [Статьи] [Базы] [Ссылки] [Поиск]