понедельник, 23 марта 2009 г.

DjVu Browser plugin 6.1


DjVu Browser Plug-in добавляет модуль для просмотра djvu-документов в браузеры Internet Explorer, Netscape Navigator, Mozilla, Safari (MacOS). Opera, как обычно, не упомянутая в документации также получает эту функцию. Однако, название программы не совсем корректно.

Дело в том, что DjVu Browser Plug-in может использоваться не только как плагин, но и как совершенно самостоятельная программа. Для этого достаточно запустить файл "DjVuViewer.exe" из директории программы (правда, диалога "Открыть файл" не предусмотрено, но документы можно открывать простым перетаскиванием на окно программы).

DjVu Browser Plug-in позволяет масштабировать документ, поворачивать его, отображать только необходимый слой, копировать текст, если он распознан. Из дополнительных инструментов присутствуют экранная лупа, доступная при удерживании клавиши Shift и, весьма сомнительной полезности, измерительная линейка. Панель быстрой навигации по документу может быть представлена схематическим отображением страниц (thumbnails) или только их названием (outline, это своего-рода аналог закладок).

В DjVu Browser Plug-in открытый документ может быть сохранен как цельный файл или же разбит на отдельные страницы. Текущая страница может быть экспортирована в bmp файл.

Из недостатков DjVu Browser Plug-in можно отметить невозможность работать с несколькими файлами в одном окне, отсутствие поддержки колесика прокрутки, а также некоторую медлительность при построении самого документа и макетов страниц навигации. Также замечено, что при сохранении в bmp-формат программа выставляет в поле "Имя файла" расширение djvu. Такой огрех приходится исправлять вручную.

http://openfile.ru/240074/

Что за формат DjVu ?

DjVu (от фр. déjà vu «уже виденное») — технология сжатия изображения с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и пр., где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами.

DjVu стал основой для нескольких библиотек научных книг. Огромное количество книг в этом формате доступно в файлообменных сетях .

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.


Используемые технологии

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2 .

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi , средний размер страницы составляет около 15 Кб , то есть приблизительно в 100 раз меньше, чем исходный файл. Однако, при этом не стоит забывать, что в DjVu используется сжатие данных с потерями . Для особо важных документов, возможно, будет разумнее использовать более «надёжные» форматы: PNG, JPEG2000, TIFF и т. п. Выигрыш объёма в этом случае составит всего 4—10 раз.

В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:

  • алгоритм отделения текста от фона на отсканированном изображении;
  • вейвлетный алгоритм сжатия фона IW44;
  • алгоритм сжатия чёрно-белых изображений JB2;
  • универсальный алгоритм сжатия ZP;
  • алгоритм распаковки «по запросу»;
  • алгоритм «маскировки» изображений;

Текстовое представление изображений DjVu

Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для лёгкого копирования текста из документа при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания (в сторонних программах).

Лицензионная информация

AT&T продали технологию компании LizardTech, которая пытается использовать её для своих коммерческих интересов, но, благодаря открытости формата, для создания и просмотра документов DjVu существует свободное программное обеспечение, доступное для различных платформ. 1 июля 2008 года LizardTech передал менеджмент DjVu родительской компании Celartem.