Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно, оцифрованные книги сохраняют в форматах: Portable Document Format (PDF), DjVu, JPG, TIFF и др. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой как ASCII или другой подобный, а также для работы с текстом и другими объектами, например, в Microsoft Word.
Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Проверяют отсканированное изображение на наличие ошибок люди.
Сканирование с разрешением 300 точек на дюйм является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час, такие устройства могут стоить тысячи долларов.
В прошлом чаще применялся ручной набор текста книги.
Сегодня процесс оцифровки включает два подхода.
1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.
Тарифы на сканирование книг
Формат jpeg
Формат страницы до А5: до 50 стр. - 700 руб.
от 51 до 100 стр. - 1300 руб.
от 101 до 200 стр. - 2400 руб.
от 201 до 300 стр. - 3300 руб.
от 301 до 500 стр. - 5000 руб.
от 501 до 700 стр. - 6300 руб.
от 701 до 900 стр. - 7650 руб.
от 901 до 1100 стр. - 8600 руб.
от 1101 до 1300 стр. - 9500 руб.
Формат страницы до А4: до 50 стр. - 950 руб.
от 51 до 100 стр. - 1800 руб.
от 101 до 200 стр. - 3400 руб.
от 201 до 300 стр. - 4800 руб.
от 301 до 500 стр. - 7000 руб.
от 501 до 700 стр. - 9150 руб.
от 701 до 900 стр. - 10900 руб.
от 901 до 1100 стр. - 12000 руб.
от 1101 до 1300 стр. - 13000 руб.
Формат PDF
Наценка 25 %
При больших объемах стоимость определяется индивидуально.
Пример сканирования (оцифровки) книги и создания файла PDF.
Простой вариант, без оптического распознавания текста.
Посмотреть оригинал или скачать
Тарифы на распознавание символов (текста)
Автоматическое распознавание символов программой, текст 30 руб./стр.
Автоматическое распознавание символов программой, текст + изобр. 35 руб./стр.
Автоматическое распознавание символов программой, текст + таблицы простые. 40 руб./стр.
Автоматическое распознавание символов программой, текст + изобр./таблицы 45 руб./стр.
Распознавание символов с проверкой оператором (страница простая) 50 руб./стр.
Распознавание символов с проверкой оператором (страница средней сложности) 70 руб./стр.
Распознавание символов с проверкой оператором (страница сложная) 80 руб./стр.
Документы на английском языке + 100 %
Количество страниц из разных изданий (книг) не суммируется. Каждое издание оценивается отдельно в соответствии с приведенными расценками.
Более масштабные объемы и нестандартные задачи - стоимость уточняйте при контакте. Все индивидуально. При больших объемах - скидки.
Возможны другие дополнительные работы по редактированию изображений и проч. Оцениваются отдельно.
Стоимость записи готового материала:
на диск (Verbatim CD+R) + конверт - 90 руб.,
на диск (Verbatim DVD+R) + конверт - 120 руб.,
на флешку - 10 руб./ Гб (мин. 60 руб.),
отправка по эл.почте - 15 руб./ Гб (мин. 90 руб.),
Также возможно выполнение тестового сканирования, распознания с отправкой заказчику по почте пробной страницы.
Пример сканирования (оцифровки) с оптическим распознаванием символов (текста)
Оригиналы вот:
Дополнительные материалы по теме, для интересующихся: