Сканирование документа в word. Распознать Сканированный текст в Word
Здравствуйте. Сегодня я расскажу, как сканировать текст в документ Word . Зачем это нужно делать? Ответ очевиден, для дальнейшего редактирования текста. Ведь изображение не так просто будет отредактировать. Что лучше использовать, программы или онлайн сервис для перевода сканированного текста в документ Word? Об этом я расскажу ниже в статье.
Для того что бы максимально ускорить и упростить задачу , я искал сайты, на которых онлайн можно конвертировать сканированный документ в формат Word. Для этого мне пришлось сначала сканировать, а затем уже конвертировать. Сразу скажу, что многие сайты ограничивают количество переводов в Word, а что бы не ограничено конвертировать нужно заплатить. Мне удалось найти пару сайтов, которые не ограничено решают эту задачу, но делится не буду, так как конвертировать сканированный текст в Word онлайн оказалось пустой тратой времени. Процент распознания текста очень низкий , проще было бы перепечатать документ с нуля.
В таком случае, если онлайн инструменты на данный момент плохо переводят сканированный документ в Word , то как же сделать это максимально качественно? Читайте об этом дальше в статье, я приведу понятную инструкцию.
Погулив ещё несколько минут, нашел программу, называется ABBYY FineReader Professional. Наверняка Вы уже слышали про неё. Скачал её тут http://nnm-club.me/forum/viewtopic.php?t=851116 , легко устанавливается и отлично работает.
ABBYY FineReader может перевести сканированные документы не только в Word, но и в PDF и многие другие текстовые и журнальные форматы.
Пользоваться ею очень просто. Устанавливаете и запускаете. На мониторе должны увидеть вот такое окно, как ниже не скриншоте.
Тут ничего сложного, интуитивно понятно, что нужно нажать в нашем случае на «Сканировать в Microsoft Word» . Затем увидим окно настроек сканирования, в котором можно ничего не менять.
Поставим программе не простую задачу — сканировать и распознать страницу книги . Кладем книгу или любой другой документ на сканер и нажимаем сканировать. Программа начинает сканирование, а затем должна автоматически распознать документ. Если автоматического распознания не произошло , то нажмите правой кнопкой на сканированный документ и нажмите «Распознать». Ниже на скриншоте видно какой результат получился у меня.
Далее нажимаете на значок Word вверху и документ сохранится в текстовый формат документа Microsoft Word. Разумеется нужно учитывать, что распознанный текст нужно обязательно перечитывать, ведь в любом случае возможны ошибки.
Задавайте вопросы, пишите комментарии. Спасибо за внимание.
Те люди, которые активно работают с документами и прочей текстовой информацией, однозначно видят необходимость в сканировании различных материалов. Важно помнить о том, что для получения качественных документов наличие сканера и вовсе не обсуждается. Однако в определенных ситуациях может сгодиться и фотография необходимого текста, однако снимок также должен отличаться высоким качеством.
Как отсканировать документ в Word
- В первую очередь происходит сканирование документа. Для этого дела лучше выбирать формат png или jpg. Размер изображения также должен быть внушительным (от 400 dpi), чтобы при распознавании не было никаких проблем.
- Полученные изображения сохраняются в конкретном месте, после чего потребуется сама программа для распознавания текста. Лучше всего сделать выбор в пользу Adobe FineReader. Это универсальное программное обеспечение, которое по качеству своей работы не вызывает никаких нареканий. Важно отметить, что после установки данной программы соответствующая вкладка должна появиться и в MS Word, соответственно, использование функционала существенно упрощается.
- Через Adobe FineReader нужно выбрать пункт меню «Файл» и «Открыть», выбираем необходимые изображения. Далее появится меню обработки изображения, нам необходимо выбрать язык, который используется в документе, а также некоторые другие опции, среди которых словари и прочие настройки (не столь важные для получения результата).
- Нажимаем кнопку «Распознать» и ждем, пока процесс завершится. Вполне вероятно, что распознается далеко не все, поэтому те слова, которые программа не смогла определить, будут выделены другим цветом, их можно редактировать прямо в программе.
- Если текст в самом отсканированном документе немного смещен, то в Adobe FineReader необходимо выбрать те или иные абзацы текста при помощи выделения. Это позволит не пропустить текст при распознавании.
- В итоге нужно нажать на кнопку «Сохранить», после чего появляется возможность выбрать место сохранения документа, а также его формат. Конечно же, в случае с MS Word нужно выбирать расширение doc или docx.
- Если перед сохранением оказывается, что документ разбит на несколько колонок, то необходимо выбрать меню «Формат», далее перейти в «Колонки» и выбрать «Одна», чтобы документ смотрелся просто и гармонично. Также в «Параметрах страницы» присутствует возможность настройки полей, отступов и шрифтов.
В итоге документ можно свободно редактировать прямо в офисном пакете MS Office. Важно отметить, что при распознавании документа прямо в Word, форматирование происходит еще проще, так как функционал единый, как для исходных документов, так и для распознаваемых.
Что касается распознавания с фотографий или других материалов, то здесь не так уж просто получить высокое качество распознавания, так как речь идет о смещенных полях, отступах и прочих деталях документов, на исправление которых придется потратить немало времени.
Работая с официальными документами, зачастую приходится набирать вручную текст, отпечатанный на бумаге. Увы, единых требований к документообороту в Российской Федерации не имеется, и каждая организация использует свои форматы и правила. Чтобы сократить время, потраченное на набор текста, применяются специальные программы и сервисы, «конвертирующие» отсканированные документы в редактируемый для пользователя вариант. К примеру, получив документ в jpg-варианте (картинкой), за считанные минуты можно перевести его в Word-формат, не тратя драгоценное время на ручной набор текста. Как перевести отсканированный документ в Ворд?
Как правило, отсканированные документы публикуются в формате.jpg, .tiff, .bmp и не подлежат редактированию. Если сканер поддерживает конвертирование отсканированных документов в PDF, то данного типа файлы можно отредактировать при помощи любого PDF-редактора, к примеру Acrobat Pro. Но что делать, если требуется отредактировать отсканированный документ в «картиночном» формате?
Именно для этих случаев разработаны программы, распознающие тексты. Одной из популярных софтин в данном сегменте рынка программного обеспечения является ABBYY FineReader. При помощи «файнридера» можно распознавать тексты с любых носителей, будь то картинка с текстом или PDF-файл.
Откройте ABBYY FineReader и перенесите необходимые для распознавания документы в окно программы.
После добавления файлов кликните по кнопке «Распознать все» и дождитесь окончания процесса.
В правой части экрана отобразится распознанный программой ABBYY FineReader текст. Чтобы сохранить весь текст в одном файле, нажмите кнопку «Сохранить» и выберите пункт «Мастер сохранения результатов»
Укажите приложение «Microsoft Word», отметьте триггером пункт «Все страницы» и кликните «ОК».
Программа автоматически экспортирует текст в Word-документ, который можно будет в дальнейшем редактировать.
У вас не установлена данная программа или нет сканера под рукой, а бумажные документы срочно нужно перевести в электронный вариант? На помощь вам придет смартфон на базе Android с установленной программой ABBYY TextGrabber. В роли «сканера» выступает камера смартфона, а «Текстграббер» самостоятельно обработает и распознает сфотографированный камерой текст. Откройте Google Play Market, введите в поиске слова «ABBYY TextGrabber» и установите программу на свой смартфон.
Запустите программу и первым делом выберите язык распознавания. Для этого в нижнем правом углу кликните кнопку «EN». Отметьте галочкой «русский язык» и кликните кнопку «Назад» в интерфейсе смартфона.
Если в нижней области экрана появилась надпись «EN/RU», значит, вы все сделали правильно и можно приступать к «сканированию документов». Кликните на круглую кнопку с иконкой «фотоаппарата».
Наведите камеру на документ и коснитесь иконки значка диафрагмы для фотографирования текста. Если текст видно плохо, то выберите более освещенное место.
Кликните «Готово» для перехода к обрезке фотографии.
Укажите границы снимка и при необходимости разверните его. По окончании кликните «Распознать» в верхней части экрана смартфона и дождитесь распознавания текста.
Готовый текст можно сразу же отредактировать на смартфоне.
В вашем смартфоне установлен офисный редактор? Выделите текст и скопируйте его в буфер обмена. Затем вставьте скопированный текст в новый Word-документ и сохраните его на смартфон. Так как большинство смартфонов на базе Android поддерживают подключение флеш-накопителей, вы можете перенести файл на компьютер и продолжить его редактирование.
Можно ли отсканированный документ перевести в Ворд без использования специальных утилит? Несомненно, но для этого потребуется любое устройство с выходом в интернет, ведь в качестве «распознавателя текста» будет выступать онлайн-сервис.
Среди качественных и бесплатных сервисов распознавания текста лучшим является Free Online OCR Service, доступный по адресу http://www.onlineocr.net . Процесс распознавания текста с отсканированного документа можно разделить на 3 шага. В первую очередь нужно загрузить документ на сайт, нажав кнопку «Select file». Максимальный объем загружаемого файла не должен превышать пяти мегабайт.
По окончании загрузки укажите русский язык и выходной формат документа.
Затем введите код с картинки и кликните кнопку «Convert».
Текст, распознанный онлайн-сервисом, можно скопировать в буфер обмена и вставить в любой документ либо сохранить его на компьютере, кликнув по ссылке «Download Output File».
Зарегистрировавшись на сервисе, пользователь получает более широкие возможности по распознаванию текста: пакетное распознавание, выгрузку документов в ZIP-архиве, неограниченный размер загружаемых файлов и конвертирование в другие форматы документов.
Единственное, что не стоит доверять онлайн-сервисам, – «секретные документы», так как, вполне возможно, отсканированные версии документов хранятся на серверах компании, владельца сервиса.
Вопрос от пользователя
Добрый день.
Подскажите пожалуйста. У меня есть один файл формата PDF, и мне нужно его отредактировать (поменять часть текста, поставить заголовки и выделения). Думаю, что лучше всего такую операцию провести в WORD.
Как конвертировать этот файл в формат DOCX (с которым работает WORD)? Пробовала несколько сервисов, но некоторые выдают ошибку, другие - переносят текст, но теряют картинки. Можно ли сделать лучше?
Марина Иванова (Нижний Новгород)
Доброго дня!
Да, в офисной работе время от времени приходится сталкиваться с такой задачей. В некоторых случаях, она решается довольно легко, в других - всё очень непросто ☺.
Дело в том, что PDF файлы могут быть разными:
- в форме картинок : когда каждая страничка представляет из себя фото/картинку, т.е. текста там нет в принципе. Самый сложный вариант для работы, т.к. перевести это все в текст - это все равно что работать со сканированным листом (у кого есть сканер - тот поймет ☺). В этом случае целесообразно пользоваться спец. программами;
- в форме текста : в файле есть текст, который сжат в формат PDF и защищен (не защищен) от редактирования (с этим типом, как правило, работать легче). В этом случае сгодятся и онлайн-сервисы, и программы.
В статье рассмотрю несколько способов преобразования PDF в WORD. Думаю, что из них каждый для себя сможет найти самый подходящий, и выполнит сию задачу ☺.
Программами
Microsoft Word
В новых версиях Word (по крайней мере в 2016) есть специальный инструмент по преобразованию PDF файлов. Причем, от вас ничего ненужно - достаточно открыть какую-нибудь "пдф-ку" и согласиться на преобразование. Через пару минут - получите результат.
И, кстати, данная функция в Word работает весьма неплохо (причем, с любыми типами PDF файлов). Именно поэтому, рекомендую попробовать сей способ в первую очередь.
Как пользоваться : сначала откройте Word, затем нажмите "файл/открыть" и выберите нужный вам файл.
На вопрос о преобразование - просто согласитесь. Через некоторое время увидите свой файл в форме текста.
Плюсы : быстро; не нужно никаких телодвижений от пользователя; приемлемый результат.
Минусы : программа платная; часть форматирования документа может потеряться; далеко не все картинки будут перенесены; на процесс преобразования никак нельзя повлиять - всё идет в авто-режиме.
Примечание!
Вместо Word и Excel можно использовать другие бесплатные аналоги с похожим функционалом. О них я рассказывал в этой статье:
ABBY Fine Reader
Ограничения в пробной версии : 100 страниц для распознавания; софт работает в течении 30 дней после установки.
А вот эта программа одна из самых универсальных - ей можно "скормить" любой файл PDF, картинку, фото, скан. Работает она по следующему принципу: выделяются блоки текста, картинок, таблиц (есть авто-режим, а есть ручной), а затем распознает с этих блоков текст. На выходе вы получаете обычный документ Word.
Кстати, последние версии программы отличаются направленностью на начинающего пользователя - пользоваться программой очень просто. В первом приветственном окне выберите "Изображение или PDF-файл в Microsoft Word" (см. скрин ниже).
Fine Reader - популярные задачи, вынесенные в стартовое окно приветствия
Далее программа автоматически разобьет ваш документ по страничкам, и на каждой страничке сама выделит все блоки и распознает их. Вам останется подправить ошибки и сохранить документ в формат DOCX (кстати, Fine Reader может сохранить и в другие форматы: HTML, TXT, DOC, и пр.).
Fine Reader - распознавание текста и картинок в PDF файле
Плюсы : можно перевести любую картинку или PDF файл в текстовый формат; лучшие алгоритмы распознавания; есть опции для проверки распознанного текста; можно работать даже с самыми безнадежными файлами, от которых отказались все остальные сервисы и программы.
Минусы : программа платная; нужно вручную указывать блоки на каждой из страничек.
Readiris Pro
Ограничение пробной версии : 10 дней использования или обработка 100 страниц.
Эта программа некоторый конкурент Fine Reader. Она поможет сканировать документ с принтера (даже если у вас нет драйверов на него!), а потом распознать информацию со скана и сохранить ее в Word (в этой статье нас интересует вторая часть, а именно распознавание ☺).
Кстати, благодаря очень тесной интеграции с Word - программа способна распознать математические формулы, различные не стандартные символы, иероглифы и т.д.
Плюсы : распознавание разных языков (английский, русский и пр.); множество форматов для сохранения; неплохие алгоритмы; системные требования ниже, чем у других программ аналогов.
Минусы : платная; встречаются ошибки и необходима ручная обработка.
Free PDF to Word Converter
Очень простая программа для быстрой конвертации файлов PDF в DOC. Программа полностью бесплатна, и при преобразовании - старается сохранить полностью исходное форматирование (чего многим аналогам так не хватает).
Несмотря на то, что в программе нет русского, разобраться со всем достаточно просто: в первом окне указываете PDF файлы (Select File - т.е. выбрать файлы); во втором - формат для сохранения (например, DOC); в третьем - папку, куда будут сохранены преобразованные документы (по умолчанию, используется "Мои документы").
В общем-то, в целом хороший и удобный инструмент для преобразования относительно несложных файлов.
Онлайн-сервисами
Small PDF
Бесплатно
Smallpdf.com - бесплатное решение всех PDF проблем
Отличный и бесплатный сервис для преобразования и работы с PDF файлами. Здесь есть все, что может пригодиться: сжатие, конвертирование между JPG, Word, PPT, объединение PDF, поворачивание, редактирование и пр.!
Преимущества:
- качественное и быстрое преобразование, редактирование;
- простой и удобный интерфейс: разберется даже совсем начинающий пользователь;
- доступно на всех платформах: Windows, Android, Linux и пр.;
- работа с сервисом бесплатна.
Недостатки:
- не работает с некоторыми типами файлов PDF (там, где нужно проводить распознавание картинок).
Конвертер PDF
Стоимость: около 9$ в месяц
Этот сервис позволяет бесплатно обрабатывать только две странички (за остальное придется доплатить). Зато сервис позволяет конвертировать PDF файл в самые различные форматы: Word, Excel, Power Point, в картинки и т.д. Также у него используются отличные от аналогов алгоритмы (позволяют получить качество обработки файла на порядок выше, чем у аналогов). Собственно, благодаря этой функциональности и алгоритмам, я и добавил его в обзор...
Кстати, по первым двум страничкам сможете сделать вывод, стоит ли покупать подписку на сервис (стоимость около 9$ за месяц работы).
ZamZar
Бесплатно
Многофункциональный онлайн-конвертер, работает с кучей форматов: MP4, MP3, PDF, DOC, MKV, WAV и многие другие. Несмотря на то, что сервис выглядит несколько странным, пользоваться им достаточно просто: т.к. все действия выполняются пошагово (см. на скрин выше: Шаг 1, 2, 3, 4 (Step 1, 2, 3, 4)).
- Step 1 (ШАГ 1) - выбор файла.
- Step 2 (ШАГ 2) - в какой формат конвертировать.
- Step 3 (ШАГ 3) - необходимо указать свою почту (кстати, возможно вам будет статья о том, ).
- Step 4 (ШАГ 4) - кнопка для запуска конвертирования.
Особенности:
- куча форматов для конверта из одного в другой (в том числе PDF);
- возможность пакетной обработки;
- очень быстрый алгоритм;
- сервис бесплатный;
- есть ограничение на размер файла - не более 50 МБ;
- результат конверта приходит на почту.
Convertio
Бесплатно
Мощный и бесплатный сервис по онлайн-работе с различными форматами. Что касается PDF - то сервис может конвертировать их в DOC формат (кстати, сервис работает даже со сложными "пдф-ками", с которыми остальные не смогли справиться), сжимать, объединять и пр.
Ограничений на размер файлов и их структуру - не выявлено. Для добавления файла необязательно даже иметь его на диске - достаточно указать URL адрес, а с сервиса уже скачать готовый документ в формате DOC. Очень удобно, рекомендую!
iLOVEPDF
Бесплатно
Похожий на предыдущий сайт: также есть весь функционал для работы с PDF - сжатие, объединение, разбивка, конвертация (в различные форматы). Позволяет быстро преобразовать различные небольшие PDF файлы.
Из минусов : сервис не может обработать файлы, которые состоят из картинок (т.е. "пдф-ки" где нет текста, здесь вы с них ничего не вытащите - сервис вернет вам ошибку, что текста в файле нет).
PDF.io
Бесплатно
Весьма интересный и многофункциональный онлайн-сервис. Позволяет конвертировать PDF в: Excel, Word, JPG, HTML, PNG (и те же самые операции в обратном направлении). Кроме этого, на этом сервисе можно сжимать файлы подобного типа, объединять и разделять страницы. В общем-то, удобный помощник в офисной работе ☺.
Из минусов : сервис справляется не с всеми типами файлов (в частности, про некоторые пишет, что в них нет текста).
Дополнения приветствуются...
ABBYY FineReader Online Распознаем отсканированные документы и цифровые фотографии онлайн.
Теперь все платно:
- 10 страниц $3,00
- 30 страниц $8,00
- 100 страниц $20,00
- 300 страниц $50,00
- 1000 страниц $70,00
- распознавание многоязычных документов (до 3-х языков одновременно): английский, русский, французский, немецкий, испанский, украинский... (всего 37 языков);
- Вы можете распознавать файлы любого из следующих форматов:
- *.jpg (*.jpeg)
- *.tif (*.tiff)
- *.pcx
- *.dcx
- *.bmp
- *.png
- *.djvu, *.djv
- конвертирование в форматы
- Текстовый документ (*.txt)
- Документ RTF (*.rtf)
- Документ PDF(*.pdf)
- Документ PDF/A (*.pdf)
- После того, как документ успешно распознан и сохранен в выбранном вами формате, вы можете скачать его из истории заданий. Здесь вы можете увидеть статус вашего задания:
- В обработке – необходимо подождать, пока сервер распознает ваше изображение;
- Распознан – обработка документа завершена, и вы уже можете скачать результат распознавания;
- Ошибка при распознавании – документ не был распознан;
- Низкое качество распознавания. Задание выполнено бесплатно – документ распознан с большим количеством ошибок.
- распознанные документы хранятся на сервере 72 часа и доступны для скачивания из истории заказов в вашем профиле,
- если вам удобнее, чтобы на почту пришла ссылка для скачивания, просто поставьте галочку «Прислать на email ссылку на результат распознавания» и ждите письма о том, что ваш документ распознан.
Https:// drive.google.com
Функция распознания текста имеется в Google Документах.
Распознается 29 языков, включая русский.Поддерживаются форматы.JPG, .GIF, .PNG и.PDF документы размером до 10 Mb
. Файл.PDF не более 10 страниц.
- Заходим в Google Документы , можно из Почты Google.
- Мышкой перетаскиваем картинку или PDF-файл в окно браузера (в Google Chrome это точно работает).
- Снизу появляется окошко и там есть сверху маленькое меню.
- Поставить флажки против 2 нижних пунктов (как это видно на картинке):
- V - Преобразовывать текст из файлов PDF и изображений
- V - Подтверждать настройки перед каждой загрузкой
- Закрываем окошко и грузим картинку снова.
- Теперь при загрузке он предлагает распознать текст, следует только указать язык.
- Затем картинка сохранилась как картинка, но если ее открыть открывает ее текстовый редактор, ниже картинки будет распознанный текст.
Https:// img2txt.com
Img2txt
Сервис распознавания изображений.
Сервис на русском, совершенно бесплатный.
Распознает онлайн достаточно быстро. Правда меня поставили в очередь, но я был в очереди первым.Проверил на предмет ошибок. Небольшой кусок текста отличного качества (сделал скриншот с их же сайта, куда качественнее?) выдало по 2 ошибке в каждом слове.Со сканами работает значительно лучше.Сервис будут до ума доводить. Можно ожидать хорошего результата. На Украине всегда были хорошие программисты.
Https://www. onlineocr.net
Online OCR Сервис распознавания текста.
Форматы исходника
- JPG/JPEG,
- TIF/TIFF,
- TIFF многостраничный,
- PDF многостраничный.
Конвертирует в форматы
- Документ PDF(*.pdf)
- Документ Microsoft Word (*.doc)
- Документ Microsoft Excel (*.xls)
- Документ HTML (*.html)
- Документ RTF (*.rtf)
- Текстовый документ (*.txt) Созданный файл будет в точности повторять структуру исходного документа (таблицы, колонки, шрифты и т.д.)
Результат
Файлы с результатом распознавания в вашем виртуальном рабочем кабинете онлайн, скачивать их на жесткий диск, редактировать, отправлять по почте и распечатывать на принтере.Ограничение
- Размер файла не должен превышать 20 Mb .
- Для получения качественного результата распознавания разрешение картинки должно быть не меньше 200 DPI .