Базы данных изображений

С появлением и развитием компьютеров на них возлагаются всё более серьёзные задачи. В частности, задачи искусственного интеллекта (шахматы, смысловые переводчики…). Важным подразделом является задача распознавания изображений. Этой задачей занимаются крупнейшие университеты и сообщества мира. Выпускаются периодические издания, например, «Журнал исследования распознавания образов». Сейчас, в связи с развитием глобальных сетей, организации делятся с мировой общественностью своими достижениями, а также выкладывают для общего обозрения тестовые модели. Выбор тестовых изображений — это очень важный момент, так как от тщательности этого выбора зависит качество проверки алгоритма. Рассмотренные мной базы данных изображений сгруппированы по типу содержащихся в них изображений: предметы, лица, естественные структуры, биометрические изображения.

Базы данных изображений предметов

Серьёзные разработки в направлении распознавания изображений проводит Колумбийский университет.

Columbia University Image Library (COIL-20)

Это база изображений различных предметов, созданная сотрудниками лаборатории CAVE Колумбийского университета. Она содержит изображения 20 предметов. Каждый предмет представлен серией из 72 изображений, сделанных при разных положениях камеры относительно предмета. Изображения в базе полутоновые, с 256 градациями яркости. Формат изображений — PNG. Размеры изображения — 128×128 пикселей.

20 предметов из coil-20

серия фотографий объекта из coil-20

База данных изображений представлена в двух версиях. Первая содержит изображения, включающие объект и фон. Во второй фон был отброшен, и изображение состоит из маленького квадрата, который содержит объект.

Columbia University Image Library (COIL-100)

Эта база содержит изображения 100 предметов 100 предметов из coil-100

Каждый предмет представлен серией из 72 изображений, сделанных при разных положениях камеры относительно предмета. серия фотографий предмета из coil-100

Изображения в базе цветные, с глубиной цвета 24 бита на пиксель. Формат изображений — PNG. Размеры изображения — 128×128 пикселей.

SOIL-47: Surrey Object Image Library

Это база изображений различных предметов, созданная в университете Суррея. База содержит изображения 47 предметов .

47 предметов из soil-47

47 повёрнутых предметов из soil-47 Каждый предмет представлен двумя сериями из 21 изображения. Серии отличаются режимом освещения. В серию входят изображения, сделанные при различных положениях камеры. Каждая сцена представлена серией из 21 изображения. серия фотографий предметов из soil-47

В базу также входят изображения 22 сложных сцен, включающих несколько предметов.

фотографии нескольких предметов из soil-47

Изображения в базе цветные, с глубиной цвета 24 бита на пиксель, представлены в формате PNG. Размеры каждого изображения — 720×576 пикселей.

ALOI (Amsterdam Library of Object Images)

База изображений различных предметов, созданная сотрудниками лаборатории Intelligent Systems Lab Amsterdam Амстердамского университета.

База содержит изображения 1000 предметов (one-thousand small objects). 1000 предметов из aloi

Каждый предмет представлен тремя сериями изображений. Первая серия содержит 24 фронтальных изображения предмета, сделанных при различных направлениях освещения. серия фотографий предмета с разными направлениями освещения из aloi

Во вторую серию входят 12 фронтальных изображений, отличающихся цветом освещения. Каждый объект был зафиксирован фронтально, со включенными пятью лампами. Цвета подсветки изменен с 2175K до 3075K. Баланс белого в камерах был установлен на 3075K, в результате чего объекты освещены от красноватого до белого цвета освещения, условия i110, i120, …, i250. серия фотографий предмета с разным цветом освещения из aloi

Третья серия включает 72 изображения, сделанных при разных положениях камеры относительно предмета.

серия фотографий предмета при разных положениях камеры из aloi

В базу также включены стереопары для 750 предметов (с 251-го по 1000-й).

стереопары из aloi

Каждое изображение в базе представлено в цветном и полутоновом виде, в трех вариантах разрешения: 768×576, 384×288 и 192×144 пикселей. Формат изображений — PNG.

The NORB Dataset

База изображений для тестирования алгоритмов распознавания трехмерных объектов, подготовленная в Нью-Йоркском университете.

База содержит изображения 50 игрушек.

База предназначена для экспериментов с распознаванием трехмерных объектов. Она содержит изображения 50 игрушек, относящихся к 5 основным категориям: четвероногие животные, фигурки людей, самолеты, грузовики и легковые автомобили. Изображения были сняты двумя камерами в 6 различных условиях освещения, с 9 наклонами и 18 азимутами. Обучающая выборка содержит 5 элементов каждой категории, тестовая — оставшиеся 5. фотографии 50 игрушек из norb

Базы данных изображений лиц

Yale Face Database

База изображений лиц, подготовленная в Йельском университете. База содержит фронтальные изображения лиц. База состоит из 165 изображений 15 человек. Каждый человек представлен серией из 11 изображений: при трех вариантах освещения; в очках и без очков; с шестью различными выражениями лица.

серия из 15 фотографий лиц из yale

Изображения полутоновые, с 256 градациями яркости, в формате GIF. Размер изображения — 320×240 пикселей.

Yale Face Database B

База изображений лиц, подготовленная в Йельском университете. База содержит фронтальные изображения лиц. База состоит из 5850 изображений 10 человек. Каждый человек представлен серией из 585 изображений (9 ракурсов, 65 режимов освещения). серия из 585 фотографий лиц из yale B

Изображения в базе полутоновые, с 256 градациями яркости, представлены в формате PGM. Размер каждого изображения — 640×480 пикселей.

Sheffield Face Database (прежнее название UMIST Face Database)

База изображений лиц, подготовленная в университете UMIST. База содержит 1012 изображений 20 человек (16 мужчин и 4 женщин). Изображения в серии для одного человека отличаются поворотом головы. серия фотографий с разным поворотом головы из sheffield

Изображения полутоновые, с 256 градациями яркости, в формате PGM.

The ORL Database of Faces

База изображений лиц, подготовленная в научно-исследовательской лаборатории компании Olivetti (Olivetti Research Laboratory или ORL; после приобретения корпорацией AT&T в 1999 г. и до закрытия в 2002 г. лаборатория носила название AT&T Laboratories Cambridge). В базу входят фронтальные изображения лиц. База содержит 400 фронтальных изображений 40 человек. серия фотографий лиц из orl Все изображения в базе полутоновые, с 256 градациями яркости. Размер каждого изображения — 92×112 пикселей. Файлы представлены в формате PGM.

Indian Face Database

База изображений лиц, подготовленная в Индийском технологическом институте в Канпуре. База содержит изображения 61 человека (39 мужчин и 22 женщин). Изображения в серии для одного человека отличаются поворотом и наклоном головы, выражением лица.

серия фотографий лиц из indian

Изображения цветные, с глубиной цвета 24 бита на пиксель, в формате JPEG. Размер изображения — 640×480 пикселей.

Georgia Tech Face Database

База изображений лиц, подготовленная в Центре обработки сигналов и изображений Технологического университета Джорджии в 1999 г. База содержит фронтальные изображения лиц. База содержит 750 фронтальных изображений 50 человек. Каждый человек представлен серией из 10 изображений. При проведении съемки варьировались условия освещения, фоновые сцены, расстояние до фотографируемого. серия фотографий лиц из georgia

Изображения в базе цветные, с глубиной цвета 24 бита на пиксель, в формате JPEG. Размеры изображения — 640×480 пикселей.

Базы данных изображений естественных структур

VisTex (Vision Texture)

База изображений естественных текстур, созданная в Массачусетском технологическом институте.

База имеет 4 основных составляющих:

  • Однородные структуры

серия фотографий однородных структур из vistex

  • Текстуры «реального мира»

cерия фотографий окружающего мира из vistex

  • Видео Текстуры: Последовательности временных текстур. (В разработке)
  • Изображения в рамках общей проективной группы (в разработке).

серия фотографий в рамках общей проективной группы из vistex

База состоит из двух наборов изображений. В первый набор входят 167 изображений различных однородных текстур. Второй набор включает 15 текстурных сцен (изображений, на которых представлены несколько текстур) и 60 фрагментов этих сцен. Изображения цветные, с глубиной цвета 24 бита на пиксель, в формате PPM. В заголовок файла включено описание изображения (тип текстуры, условия съемки и т. п.). Каждое изображение представлено в двух вариантах разрешения: 128×128 и 512×512 для образцов текстур и фрагментов текстурных сцен; 192×128 и 786×512 для текстурных сцен (или 128×192 и 512×786 для вертикально ориентированных изображений).

Базы данных изображений биометрических данных

CVLR Data Sets

Базы данных биометрических изображений, подготовленная в Computer Vision Research Laboratory, Department of Computer Science and Engineering, University of Notre Dame. Данные известны также под названием Notre Dam datasets.

В репозитории находится несколько обширных баз радужной оболочки глаза.

серия фотографий радужной оболочки глаза из cvlr

серия фотографий радужной оболочки глаза в различных положениях из cvlr

Выводы

Применение программ распознавания изображений становится всё более частым и распространённым. Например, в социальной сети Facebook запущена функция Tag Suggestions, которая автоматически распознает лица на фотографиях пользователя и предлагает ему отметить друзей. Ещё одним примером служит компания Google. Она приобрела Neven Vision — компанию, чьи технологии можно использовать для поиска элементов в фотографии, таких как люди и строения. Google сообщает, что эта технология используется для поиска и сопоставления элементов на фотографиях в Picasa.

Источники

Печать/экспорт