Репозиторий UCI

Репозиторий UCI (UCI Machine Learning Repository) представляет собой набор реальных и модельных задач машинного обучения, которые используются научным сообществом для эмпирического анализа алгоритмов машинного обучения. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Архив был создан в 1987 году Дэвидом Ага и коллегами аспирантами Калифорнийского университета в городе Ирвин (Калифорния, США). С этого времени, он широко используется студентами, преподавателями и исследователями во всем мире в качестве основного источника машинного обучения наборов данных.

Использование Репозитория UCI

Базы данных репозитория можно найти на сайте http://archive.ics.uci.edu. На данном сайте находится более 170 задач машинного обучения.

Классификация задач

По целям: Classification (классификация) Regression (регрессия) Clustering (кластеризация) Other (другие)

По типу атрибутов: Categorical (категорические) Numerical (числовые) Mixed (смешанные)

По типу данных: Multivariate (многомерные) Univariate (одномерные) Sequential (последовательности) Time-Series (временные периоды) Text (текстовые) Domain-Theory (домен теория) Other (другие)

По области применения: Life Sciences (жизненная сфера) Physical Sciences (физические науки) CS / Engineering (инженерия) Social Sciences (социальные науки) Business (бизнес) Game (игры) Other (другое)

По количеству атрибутов: Less than 10 (менее 10) 10 to 100 (от 10 до 100) Greater than 100 (более 100)

По формату представленных данных: Matrix (в виде матриц) Non-Matrix (не матричная форма)

По количеству данных: Less than 100 (менее 100) 100 to 1000 (от 100 до 1000) Greater than 1000 (более 1000)

Для каждой задачи существует файл (папка) с данными (Data Folder) и описание задачи (Data Set Description)

История

Первая версия архива собрана Дэвидом Аха (David Aha) и его студентами в 1987 году. Начиная с этого момента репозиторий широко использовался студентами, преподавателями и исследователями по всему миру как первичный источник данных для тестирования и сравнения алгоритмов машинного обучения. Текущая версия с новым веб-интерфейсом разработана в 2007 году и поддерживается Артуром Асунсьоном (Arthur Asuncion) и Дэвидом Ньюманом (David Newman). Архив задач постоянно пополняется. На 1 октября 2008 года число задач составляло 174, из них: классификация — 115, регрессия — 12, кластеризация — 5.

Пример

Прочность на сжатие бетона


Тип данных: многомерный

Аннотация: Бетон является самым важным материалом в строительстве. бетон прочностью на сжатие является очень нелинейной зависимости от возраста и ингредиентов. Эти компоненты включают цемент, шлак доменный, летучая зола, воды, суперпластификатор, крупного заполнителя и мелкого заполнителя.


Данные характеристики:

Фактическое конкретных прочность на сжатие (МПа) для данной смеси при определенного возраста (в днях) определялась из лаборатории. Данные в сыром виде (не масштабируется).

Сводная статистика:

Число случаев (наблюдений): 1030 Количество атрибутов: 9 Атрибут пробоя: 8 количественных переменных вход и 1 выход количественных переменных Отсутствие значений атрибутов: Нет


Переменная информация:

Учитывая это имя переменной, тип переменной, единицы измерения и краткое описание. Бетон прочностью на сжатие является задача регрессии. Порядок этого листинга соответствует порядку цифр вдоль рядов данных.

Имя - тип данных - Измерение - Описание

Цемент (компонент 1) - количественные - кг в смеси м3 - входная переменная

Доменный шлак (компонент 2) - количественные - кг в смеси м3 - входная переменная

Летучая зола (компонент 3) - количественные - кг в смеси м3 - входная переменная

Вода (компонент 4) - количественные - кг в смеси м3 - входная переменная

Суперпластификатор (компонент 5) - количественные - кг в смеси м3 - входная переменная

Крупного заполнителя (компонент 6) - количественные - кг в смеси м3 - входная переменная

Мелкого заполнителя (компонент 7) - количественные - кг в смеси м3 - входная переменная

Возраст - количественные - День (1 ~ 365) - входной переменной

Бетонные прочность на сжатие - количественные - МПа - выходной переменной


Печать/экспорт