Вышел плагин для распознавания текста на фотографиях прямо на сайтах

23 апреля 2014

Иногда на разных сайтах попадаются фотографии с текстовым содержимым, который бывает необходимо быстро скопировать в свой текстовый редактор и править. Однако выбор программных средств для этой задачи до сегодняшнего дня оставался далеко не самым впечатляющим.

Пользователям приходилось сохранять изображение на компьютер и используя специальные программы для работы со сканированным текстом их обрабатывать. Подобного рода ПО дает неплохой результат с отсканированным текстом, но может и не сработать при обработке расположенного на фоне какого-то изображения текста. Другие пользователи особенно не заморачивались и прибегали к далеко не самому технологичному варианту: просто вручную набирали текст с фотографий.

Но установив в свой браузер плагин Project Naptha, вы получите технологичность первого способа и простоту второго. Плагин написан на JavaScript и пока еще работает не совсем идеально, с чем соглашается сам разработчик Кевин Квок. Однако все имеющиеся недоработки лишь относительны и не лишают данный продукт своей уникальности.

Перед началом распознавания текста, плагин сначала определяет, есть ли на изображении вообще какой-то текст. Эта задача возложена на алгоритм Stroke Width Transform, разработанный подразделением Microsoft Research. В основе алгоритма лежит тот принцип, что все строки в тексте обычно размещаются на довольно стандартной ширине, которая и позволяет делать вывод о наличии текста в объеме всего изображения. Процесс сканирования текста начинается после того, как пользователь переместит на изображение указатель мыши. Тем самым достигается экономия вычислительных ресурсов и производительности браузера.

Далее пользователю остается выбрать распознанный текст привычным для себя методом (как в любом текстовом документе) и скопировать его в буфер обмена. В контекстном меню пользователь может выбрать альтернативные варианты движков для обработки, например, Google Tesseract.

На этом функциональная составляющая плагина Project Naptha не заканчивается: распознанный текст можно сразу же переводить на разные языки прямо в изображении. Вполне вероятно, что в будущем доведенный до ума плагин начнет распространяться на платной основе, поскольку для его функционирования необходимо содержать удаленный сервер. Плюс не бесплатен и сам движок Google Tesseract.