pdf или djvu что лучше
Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Ряд пользователей просматривает эти книги из под линукса.
Недавно мне посоветовали перейти на формат DjVu, который, вроде бы, позволяет создать электронные книги в 5-10 раз меньшего объема, чем pdf. В нем поля и межстрочные интервалч сохраняются с низким разрешением (подробнее http://www.dstu2204.narod.ru/doc/djvu/djvu.htm).
Но меня мучают сомнения: станет ли DjVu широко распространенным? СтОит ли отказываться от pdf? Ведь по умолчанию просмотрщик pdf в линуксе нет, а для DjVu, насколько я понимаю, нет. Да и pdf-просмотрщики у многих стоят уже.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Не знаю, как насчёт популярности, но просмотрщики и для pdf (xpdf), и для djvu (djvulibre) имеются.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Лучше использовать DjVu. Как под линуксом еще не приходилось пробовать, а под винду море просмоторщиков, значительно удобнее акробата. И быстрее значительно.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
DjVu давно стал стандартом для сканированных книг.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
> А ИМХО сейчас популярней (с каждым днем) fb2
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Не знаю, где он популярней, я пока ни одной книги в этом формате не видел.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Было время когда «я открыл для себя :)» формат DjVu и очень хотел хранить в нём максимум информации. Но когда я взялся за поиски средств создания изображений такого формата то обнаружил что бесплатных средств пакетного преобразования в этот формат для винды нет. Но есть под линух (выше уже приведено название пакета, который я сам неоднократно использовал). Должен заметить работают они здесь раза в 3-4 быстрее чем тот-же DjVusolo. Кроме того формат набирает обороты. Поддержка браузерами. А ещё у меня книг (поскольку я не кампутерщик по образованию то и книги не про АйТи) в этом формате около полутора гигов. Удобный формат.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Для примера: трёхтомник Кнута в pdf, порядка, 216Mb, в djvu, порядка, 18.5Mb, приемлемого качества.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Да, а Берклеевский курс физики (5 томов), занимает в djvu 61Mb.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Сугубое ИМХО: совершенно не понимаю, как можно называть электронной _книгой_ отсканированные картинки. Нет, джентльмены, без поиска это не книга, а комикс.
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
Спасибо всем за ответы.
> обнаружил что бесплатных средств пакетного преобразования в этот формат для винды нет. Но есть под линух (выше уже приведено название пакета, который я сам неоднократно использовал).
> Должен заметить работают они здесь раза в 3-4 быстрее чем тот-же DjVusolo. Кроме того формат набирает обороты. Поддержка браузерами. А ещё у меня книг (поскольку я не кампутерщик по образованию то и книги не про АйТи) в этом формате около полутора гигов. Удобный формат.
У меня еще вопрос. Для перевода в pdf 2-3 страниц текста я использовал стандартную функцию OpenOffice «сохранить в pdf». Есть ли похожая удобная фишка для сохранение в djvu из какого-нибудь редактора?
Re: Прошу совета: имеет ли смысл использовать формат DjVu вместо pdf при создании электронных книг?
> Сугубое ИМХО: совершенно не понимаю, как можно называть электронной _книгой_ отсканированные картинки. Нет, джентльмены, без поиска это не книга, а комикс.
Скажите вашему сугубому имху, чтобы оно прочитало спецификацию djvu 3.0 на тему «searchable text»
Цифровой документооборот: DjVu против PDF
Большинство компаний рано или поздно сталкивается с необходимостью введения электронного документооборота. При этом одним из наиболее важных вопросов становится выбор формата, в котором документы будут создаваться, храниться и передаваться в другие фирмы или удаленные подразделения. Сегодня мы сравним два таких формата: PDF и DjVu.
История DjVu началась в 1996 году. Именно тогда одно из подразделений компании AT&T начало работу над созданием нового формата. Главная задача, которая была поставлена перед разработчиками – создать технологию хранения и пересылки отсканированных документов, то есть, фактически, документов в электронном виде. Однако в то время мало кто мог предположить, что в будущем компании будут обмениваться через глобальную сеть договорами и актами. Поэтому под документами понимались отсканированные журналы, газеты, книги, техническая документация. В 1998 году появились первые плагины для просмотра DjVu-документов с помощью браузеров.
В 1999 году была опубликована новая версия формата DjVu. В ней была реализована функция объединения нескольких изображений в один файл с возможностью перелистывания страниц, а также нанесения так называемых “горячих точек”, фактически, являющихся гиперссылками. В следующем году появилась третья версия формата DjVu. Примерно тогда же компания AT&T продала свою разработку фирме LizardTech, которая начала использовать ее в своих коммерческих продуктах. При этом сам формат является открытым. А поэтому сегодня существует немало бесплатного программного обеспечения для работы с ним.
Сам по себе формат DjVu является очень интересным решением, представляющим собой технологию сжатия изображения с потерями. Суть ее заключается в разделении документа на три слоя: передний план, задний план и черно-белую маску. Каждый из них обрабатывается по-своему. При этом используется целый ряд различных технологий: алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный алгоритм сжатия ZP, алгоритм распаковки по запросу. Такой подход позволяет добиться максимальной степени сжатия при минимальных искажениях. Одна отсканированная из книги страница имеет в формате DjVu объем всего 10-25 кбайт.
Впервые о формате PDF (Portable Document Format) общественность услышала в 1991 году. Именно тогда компания Adobe Systems анонсировала его как новую технологию представления в электронном виде любой полиграфической продукции. Новинка получилась очень удачной. Уже в следующем году формат PDF получил приз на престижной международной выставке Comdex Fall. Компания Adobe Systems очень большое внимание уделяла развитию своей разработки. В 1994 году появилась версия 1.1 формата PDF, в которой была реализована поддержка внешних ссылок, машинно-независимого цвета, потоков статей, а также комментарии и некоторые функции, касающиеся безопасности. Следующая версия рассматриваемого формата появилась в 1996 году. В ней была реализована поддержка спецификации OPI 1.3 и цветового пространства CMYK.
Формат PDF 1.3 был выпущен в 1999 году. Он отличался от своего предшественника поддержкой 2-байтовых CID шрифтов, спецификации OPI 2.0, наличием технологий сглаживания теней и градиентов. Следующая версия рассматриваемого формата была опубликована в 2001 году. В ней появились такие важные функции, как поддержка прозрачности, 128-битное шифрование, возможность установки качества печати. Ну и, наконец, последней на сегодняшний день является версия 1.7 формата PDF, которая появилась в 2006 году.
Главным отличием формата PDF является его широкое распространение. Сегодня именно в этом формате поставляются многие руководства, технические документации, периодическая пресса и другие виды документов. И практически на каждом компьютере установлено программное обеспечение для просмотра документов в формате PDF.
Форматы DjVu и PDF: разные области применения
Если говорить об использовании форматов DjVu и PDF для организации электронного документооборота, то стоит обратить внимание на следующие особенности каждого из них. Главное достоинство формата DjVu – очень маленький размер файлов. Особенно он хорош при работе с такими документами, в которых много нераспознаваемых элементов: картинок, схем и формул. Кроме того, DjVu прекрасно подходит в случаях, когда необходимо передать не только сам текст, но и его оформление: цвет и фактуру носителя, существующие на нем дефекты и следы, которые оставили другие предметы. Таким образом, DjVu прекрасно подходит для хранения технической документации, например, инструкций и руководств, а также исторических и просто редких документов. Сегодня в глобальной сети существуют обширные библиотеки всевозможной литературы, которая записана в этом формате.
Однако обратите внимание, что каждый раз, говоря о файлах в формате DjVu, мы упоминаем о сканировании реально существующих на бумаге или другом носителе документах. И это неспроста. Данный формат изначально создавался для хранения именно отсканированных копий документов. И сегодня практически нет инструментов, да и необходимости, создавать DjVu-файлы как-то иначе.
Недостатков, препятствующих использованию формата DjVu в электронном документообороте, немало. Во-первых, в нем применяется сжатие данных с потерями. А это не очень хорошо, когда речь идет о договорах, актах, и других имеющих юридическую силу документах. Во-вторых, относительно малое распространение формата DjVu не позволяет компаниям свободно использовать его для обмена информацией со своими партнерами или клиентами. На подавляющем большинстве как корпоративных, так и домашних компьютеров просто-напросто нет программного обеспечения для просмотра таких электронных документов. В-третьих, в рассматриваемом формате полностью отсутствуют хоть какие-то средства для обеспечения безопасности и конфиденциальности документов.
Что касается формата PDF, то он больше подходит для организации электронного документооборота. Самое главное – это его широкое распространение. Как мы уже говорили, практически на каждом ПК вне зависимости от используемой на нем операционной системы установлено программное обеспечение, позволяющее не только прочитать PDF-документ, но и “материализовать” его на любом печатающем устройств. Причем именно в том виде, в котором его создал владелец. Таким образом, устраняется проблема совместимости форматов – одна из самых серьезных проблем в процессе организации электронного документооборота.
Вторым преимуществом формата PDF является встроенная защита от несанкционированного доступа. С ее помощью пользователь может обезопасить любой свой документ от просмотра или использования посторонними лицами. В качестве защиты применяется криптографическая технология, многократно протестированная как разработчиками программного обеспечения, так и экспертами в области информационной безопасности.
Ну и, наконец, третьим преимуществом PDF является его стандартизация организацией ISO (International Organization for Standardization). На данный момент этот формат уже имеет статус стандарта для хранения архивных документов и для обмена компаниями информацией в электронном виде. И это только начало. Разработчики формата собираются передать его спецификацию общественной организации Association for Information and Image Management. В этом случае существует очень большая вероятность того, что PDF станет международным стандартом для организации электронного документооборота.
Какой же вывод можно сделать из всего вышесказанного? Оказывается, форматы DjVu и PDF нельзя считать соперниками. Они предназначены для решения различных задач, а поэтому не соперничают, а дополняют друг друга. В качестве основы системы электронного документооборота лучше брать, конечно же, формат PDF, который, де-факто, стал общемировым стандартом. Стоит отметить, что в некоторых компаниях уже существуют цифровые DjVu-архивы технической и другой документации, созданные путем сканирования бумажных документов. Однако это не является основанием для выбора именно этого формата. Лучше построить современную, реально работающую систему электронного документооборота, а уже существующие DjVu-файлы просто конвертировать в формат PDF.
Конвертируем документы из DjVu в PDF
Для реализации системы электронного документооборота используется обычное для работы с файлами выбранного формата программное обеспечение, в том числе, и распространяемое на бесплатной основе. Однако есть одна задача, с которой такое ПО справиться не сможет. Речь идет о конвертировании документов из формата DjVu в формат PDF. Для решения данной задачи приходится использовать дополнительное программное обеспечение, например, Universal Document Converter. Это универсальный продукт для конвертирования документов в различные форматы, который прекрасно подходит в нашем случае.
По принципу работы программа Universal Document Converter является виртуальным принтером. В процессе установки она создает в операционной системе дополнительное печатающее устройство, доступное в любом программном обеспечении. Печатая на этом принтере, на выходе пользователь получает файл нужного формата. Такой подход наиболее удобен на практике. Во-первых, он позволяет осуществлять процесс конвертирования быстро, практически без предварительной работы. Во-вторых, он настолько прост, что не требует обучения конечных пользователей.
Алгоритм конвертирования файла формата DjVu в PDF-документ с помощью программы Universal Document Converter выглядит следующим образом. Сначала пользователь должен открыть нужный файл DjVu. Сделать это можно в программе Internet Explorer с предварительно установленным специальным плагином. После этого ему остается только нажать на кнопку “Печать” и выбрать в качестве принтера Universal Document Converter.
Формат DjVu и чем он отличается от PDF
В наши дни мы довольно много читаем с помощью электронных средств, будь то мобильное устройство или компьютер. Несмотря на то, что сегодня существует множество форматов файлов, вы наверняка слышали о PDF (Portable Document Format). Одним из основных преимуществ этого формата является то, что он поддерживается практически любым устройством, способным отображать текстовые документы.
Хотя у этого формата есть несколько преимуществ, он не единственный. Сегодня мы рассмотрим формат DjVu (произносится уже видел) и исследуем, чем он отличается от хорошо известного формата PDF.
Обзор: DjVu против PDF
Формат документа DjVu использует новейшие методы сжатия для создания файлов как высокого качества, так и небольшого размера.
В соответствии с DjVu.org, формат DjVu существует с 1996 года. Он был реализован из-за потребности в файлах высокого качества, полученных при сканировании физических документов, которые не занимали бы много места. Ниже перечислены основные преимущества этого формата.
Системные ресурсы
Следует отметить, что из-за того, как сжатие изображений обрабатывается с помощью DjVu, формат обычно проще в ОЗУ. Вместо распаковки целых изображений в документах в этом формате распаковывается только часть изображения, отображаемая на экране пользователя.
Разделение слоев
Кроме того, основой благоприятного размера файла DjVu является способ разделения различных слоев документа DjVu. Текстура бумаги и изображения на заднем плане отделены от текста и линейных диаграмм на переднем плане. Таким образом можно сжимать изображения, но не текст, оставляя после себя изображение приемлемого качества с четким текстом.
Это сильно отличается от традиционных форматов, таких как PDF, где такое разделение обычно не происходит, а это означает, что для достижения общего приемлемого уровня качества размер файла обычно больше, чем у файла DjVu.
Скорость
Файлы DjVu также открываются быстрее. Вместо того, чтобы открываться в полном качестве, файл изначально открывается в более низком качестве, и качество постепенно повышается до тех пор, пока оно не достигнет необходимого уровня.
Заключение
Подводя итог, файлы DjVu обеспечивают отличный баланс между качеством и размером. Файлы DjVu по своей сути меньше файлов PDF, что делает их отличными кандидатами для использования в веб-среде и в целом для электронного просмотра.
Однако PDF-файлы могут предоставлять изображения более высокого качества, что в некоторых случаях необходимо. Например, хотя может быть желательно, чтобы PDF-файл можно было просматривать на компьютере, он мог быть создан исключительно с целью его последующей печати.
Другой недостаток немного более очевиден. PDF используется гораздо шире и в значительной степени совместим по всем направлениям. Он в основном считается стандартом для электронных документов. Однако DjVu не так широко используется, и существует гораздо меньше программ, поддерживающих эту программу, по сравнению с PDF-файлами.
Честно говоря, у обоих форматов есть свои преимущества. Я считаю, что одно не обязательно должно иметь приоритет над другим. Вместо этого их следует использовать там, где это уместно.
Если вы хотите еще раз изучить формат DjVu и вам нужна программа для просмотра, WinDjView / MacDjView может выполнять эту работу, и он поддерживается как на Mac, так и на Windows. Sumatra PDF для Windows поддерживает несколько форматов, включая PDF и DjVu, и стоит попробовать.
Если у вас есть какие-либо отзывы, пожалуйста, дайте нам знать в комментариях ниже и благодарим вас за чтение.
СМОТРИТЕ ТАКЖЕ: Как открывать документы различных форматов непосредственно в Chrome и Firefox
Электронные книги и их форматы: DjVu — его история, плюсы, минусы и особенности
В начале 70-х годов американский писатель Майкл Харт (Michael Hart) сумел получить неограниченный доступ к компьютеру Xerox Sigma 5, установленному в университете штата Иллинойс. Чтобы достойно использовать ресурсы машины, он решил создать первую электронную книгу, перепечатав Декларацию независимости США.
Сегодня цифровая литература получила широкое распространение, во многом благодаря развитию портативных устройств (смартфонов, ридеров, ноутбуков). Это привело к появлению большого количества форматов электронных книг. Попробуем разобраться в их особенностях и расскажем историю наиболее популярных из них — начнем с формата DjVu.
Возникновение формата
DjVu был разработан в 1996 году компанией AT&T Labs с одной целью — дать веб-разработчикам инструмент для распространения изображений в высоком разрешении через интернет.
Дело в том, что в то время 90% всей информации все еще хранилось на бумаге, а многие из важных документов имели цветные изображения и фотографии. Чтобы сохранить читаемость текста и качество картинок, приходилось делать сканы в высоком разрешении.
Классические веб-форматы — JPEG, GIF и PNG — позволяли работать с такими изображениями, но ценой объема. В случае JPEG, чтобы текст был читаем на экране монитора, приходилось сканировать документ с разрешением 300 dpi. Цветная страница журнала при этом занимала порядка 500 Кбайт. Скачивание файлов такого объема из интернета в то время было довольно трудоемким процессом.
Альтернативой было оцифровывание бумажных документов с помощью технологий распознавания текста, однако 20 лет назад их точность была далека от идеальной — после обработки финальный результат приходилось серьезно править вручную. При этом графики и изображения оставались «за бортом». И даже если удавалось встроить отсканированную картинку в текстовый документ, терялись некоторые визуальные детали, например, цвет бумаги, её текстура, а это важные компоненты исторических документов.
С целью решить эти проблемы AT&T и разработали DjVu. Он позволил сжимать отсканированные цветные документы с разрешением 300 dpi до 40–60 Кбайт, при размере оригинала в 25 Мбайт. Размеры чёрно-белых страниц DjVu уменьшил до 10–30 Кбайт.
Как DjVu сжимает документы
DjVu может работать как с бумажными отсканированными документами, так и с другими цифровыми форматами, например PDF. В основе работы DjVu лежит технология, разбивающая изображение на три компонента: передний план, задний план и чёрно-белую (битовую) маску.
Маска сохраняется с разрешением исходного файла и содержит изображение текста и прочие чёткие детали — тонкие линии и схемы — а также контрастные картинки.
Она имеет разрешение 300 dpi, чтобы тонкие линии и контуры букв оставались четкими, и сжимается с помощью алгоритма JB2, который представляет собой вариацию алгоритма JBIG2, предложенного AT&T для работы факсов. Особенностью JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. Таким образом, в многостраничных документах каждые несколько последовательных страниц пользуются общим «словарём».
Задний план содержит текстуру страницы и иллюстрации, а его разрешение меньше, чем у маски. Фон без потерь для восприятия сохраняется с разрешением 100 dpi.
Передний план хранит цветовую информацию о маске, и его разрешение обычно понижается ещё сильнее, так как в большинстве случаев цвет текста черный и одинаковый для одного печатного знака. Для сжатия переднего и заднего планов используется вейвлетное сжатие.
Заключительным этапом создания DjVu-документа становится энтропийное кодирование, когда адаптивный арифметический кодировщик превращает последовательности одинаковых символов в бинарное значение.
Достоинства формата
Задачей DjVu было сохранить «свойства» бумажного документа в цифровом виде, позволив работать с такими документами даже слабым компьютерам. Поэтому ПО для просмотра DjVu-файлов обладает возможностью «быстрого рендеринга». Благодаря ей в память загружается только тот кусочек DjVu-страницы, который должен отображаться на экране.
Это также дает возможность просматривать «недокачанные» файлы, то есть отдельные страницы многостраничного DjVu-документа. При этом используется прогрессивная прорисовка деталей изображения, когда компоненты как бы «проявляются» по мере закачки файла (как в JPEG).
20 лет назад, когда был представлен этот формат, загрузка страницы происходила в три этапа: сперва грузилась текстовая составляющая, через пару секунд подгружались первые версии изображений и фон. Уже после «проявлялась» вся страница книги.
Наличие трёхуровневой структуры также позволяет осуществлять поиск по отсканированным книгам (так как есть специальный текстовый слой). Это оказалось удобно при работе с технической литературой и справочниками, поэтому DjVu стал основой для нескольких библиотек научных книг. Например, в 2002 году он был выбран Архивом Интернета в качестве одного из форматов (вместе с TIFF и PDF) для проекта по сохранению отсканированных книг из открытых источников.
Недостатки формата
Однако, как и все технологии, DjVu имеет свои минусы. Например, при кодировании сканов книг в формат DjVu некоторые символы в документе могут подменяться на другие, внешне похожие. Наиболее часто это происходит с буквами «и» и «н», отчего эта проблема получила название «проблема инь». Она не зависит от языка текста и влияет, в том числе, на цифры и другие мелкие повторяющиеся знаки.
Её причина — ошибки классификации символов в кодировщике JB2. Он «дробит» сканы на группы по 10–20 штук и формирует для каждой из групп словарь общих символов. Словарь содержит образцы общих букв и цифр со страницами и координатами их появления. Когда вы просматриваете DjVu-книгу, символы из словаря подставляются в нужные места.
Это позволяет уменьшить размеры DjVu-файла, однако, если отображения двух букв визуально похожи, кодировщик может их или перепутать, или принять за одинаковые. Иногда это приводит к порче формул в техническом документе. Для решения этой проблемы можно отказаться от алгоритмов сжатия, однако это увеличит размеры цифровой копии книги.
Другим недостатком формата является то, что он не поддерживается по умолчанию во многих современных ОС (в том числе мобильных). Поэтому для работы с ним нужно ставить сторонние программы, такие как DjVuReader, WinDjView, Evince и др. Однако здесь хотелось бы отметить, что некоторые электронные читалки (например, ONYX BOOX) поддерживает формат DjVu «из коробки» — так как необходимые приложения там уже установлены.
Кстати, о том, что еще могут приложения для ридеров на базе Android, мы рассказывали в одном из предыдущих материалов.
Ридер ONYX BOOX Chronos
Еще одна проблема формата проявляется при работе с DjVu-документами на небольших экранах мобильных устройств — смартфонах, планшетах, ридерах. Иногда DjVu-файлы представлены в виде скана разворота книги, а профессиональная литература и рабочие документы часто имеют формат А4, поэтому приходится «двигать» изображение в поисках информации.
Однако отметим, что эта проблема также решаема. Проще всего, конечно, поискать документ в другом формате — но если такой вариант невозможен (например, вам нужно работать с большим количеством технической литературы в DjVu), то можно воспользоваться электронными читалками с большой диагональю от 9,7 до 13,3 дюйма, которые специально «заточены» под работу с подобными документами.
Например, в линейке ONYX BOOX такими устройствами являются Chronos и MAX 2 (кстати, мы подготовили обзор этой модели ридера, и в скором времени опубликуем его в нашем блоге), а также Note, который имеет экран E Ink Mobius Carta с диагональю 10,3 дюйма и повышенным разрешением. Такие устройства позволяют спокойно рассмотреть все детали иллюстраций в оригинальном размере и подойдут тем, кому часто приходится читать учебную или техническую литературу. Для просмотра файлов DjVu и PDF используется NEO Reader, который дает настраивать контраст и толщину оцифрованных шрифтов.
Несмотря на имеющиеся у формата недостатки, на сегодняшний день DjVu остается одним из самых популярных форматов для «сохранения» литературных произведений. Во многом это обусловлено тем, что он является открытым, а обойти его некоторые технологические ограничения сегодня позволяют современные технологии и разработки.
В следующих материалах мы продолжим рассказ об истории появления форматов электронных книг и особенностях их работы.