И снова Google

t0wer · 19 Ноя 2008

Google научился индексировать отсканированные документы

Компания Google объявила о том, что ее поисковик научился индексировать текст на отсканированных изображениях. По словам представителей компании, для определения текста на картинке используется специальная технология оптического распознавания Optical Character Recognition, которая умеет конвертировать изображение слов в файлы с текстом.
На сегодняшний день, поисковик Google умеет распознавать только текст в документах формата PDF.

Кто-нибудь как-то юзал эту фишку Гугла?!

polyetilen · 19 Ноя 2008

Да похоже уже индексирует отсканенные документы в pdf формате, пишут об этом в своём блоге:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

демо:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

первый документ в результате отсканенный.

dee_motard · 19 Ноя 2008

да, удобная фишка! Да и раньше поиск по ПДФкам тоже радовал. Находишь ПДФку в выдаче Гугля, и чтобы не качать ее (и особенно если не установлен ридер) щелкаешь по "просмотреть в виде HTML". Форматирование там конечно кривоватое, но понятно можно нужная это инфа или нет. Что есть польза!

И снова Google

t0wer

BlackHerald

polyetilen

Заблокирован

dee_motard

Гуру форума