Google индексирует даже сканированные документы
Внесение такого функционала в Google Search потребует немалых вычислительных мощностей и необходимость применения продвинутых технологий распознавания изображений. В отличие от стандартных текстовых документов, сканированные файлы не содержат никакой текстовой информации, которую могут индексировать поисковые «пауки» Google. Соответственно для извлечения необходимых сведений была применена технология оптического распознавания символов, превращающая запечатленный на фотографиях текст в цифровые текстовые файлы.
В прошлом поисковик Google мог ориентироваться лишь по названию файла и включенным в него метаданным, но не по его реальному содержанию. Теперь же в результатах поиска будет представлен текст, извлеченный из сканированных файлов. При необходимости его можно просмотреть в оригинальной форме или в конвертированном текстовом варианте.
Технология оптического распознавания текста существует уже довольно давно, но главной проблемой всегда была точность сканирования, а учитывая невероятные вычислительные мощности, доступные Google, можно рассчитывать на впечатляющий результат.
donbass.ua
Июль
1,
2008
— Рубрика: Поисковики
Метки: мощность, результат
Реклама: Индексация сайта реклама продвижения сайтов от сео студии.
