Чтоб комп мог, мягко говоря, осознать, что изображено на картинах, и как раз распознать дубликаты, изображения необходимо «перевести» на понятный ему язык — язык чисел. Несомненно, стоит упомянуть то, что в Yandex.Картинах сиим как раз занимается особая, как все знают, компьютерная система, программы которой обходят, вообщем то, веб, находят изображения и обрабатывают их — выяснят, как мы привыкли говорить, нужные данные о картинке, к примеру, размер, цвет, формат (JPG, PNG и т.п.) и как раз делают числовую характеристику изображения — сигнатуру. На каждом изображении программа, наконец, выделяет главные фрагменты. Обратите внимание на то, что потом уменьшает их до размера 16х16 пикселей, и, как все знают, каждому из 256 пикселей присваивает число, соответственное яркости этого пикселя. Мало кто знает то, что приобретенные композиции чисел и есть сигнатуры.
Программа объединяет в группы изображения, у каких есть похожие главные фрагменты (другими словами идентичны их сигнатуры). Несомненно, стоит упомянуть то, что снутри этих групп как бы выделяются еще больше близкие изображения — у каких, вообщем то, совпадают минимум два фрагмента. Как бы это было не странно, но изображения с схожими фрагментами стают кандидатами в дубликаты. Все знают то, что в их программа выделяет области, объединяющие все совпавшие фрагменты. Всем известно о том, что последующим шагом эти области уменьшаются до размера приблизительно 60х60 пикселей, переводятся в числовую характеристику и так сказать сравниваются меж как бы собой. И даже не надо и говорить о том, что дубликатами признаются изображения, у каких области, стало быть, совпадают.
Таковая организация поиска и группировки дубликатов дозволяет быстро обрабатывать наиболее 2-ух млрд изображений.