# Проектная работа по дисциплине "Архитектура систем ИИ"
# Автор: Филиппенко Илья (P4141)
# Тема работы: "Рекомендация фильмов"
# Цель работы: "Создание пайплайна обучения моделей для рекомендации фильмов для пользователя по его истории просмотров"
Задачи:
- Анализ существующих решений;
- Сбор данных;
- Обучение выбранных моделей;
- Оценка моделей исходя из показателей полученных метрик: Precision, Recall, Accuracy, F1-score на исходном наборе данных; анализ confusion matrix; будет применена кросс-валидация;
- Выбор оптимальной модели;
- Развёртывание оптимальной модели;
В ходе работы требуется пайплайна обучения моделей для рекомендации фильмов для пользователя на основании истории просмотров.
Для примера взят датасет по умолчанию (opens new window), экспортированный с IMDB.
Репозиторий проекта: movie-recomender (opens new window)
# Задача
Регрессия оценки по 10-бальной шкале отдельно взятого пользователя для фильма по поверхностным данным
# Описание датасета
- Объем: 520 строк
- Практически не содержит пропусков.
- При принадлежности фильма к нескольким жанрам все записываются в строку.
- Совмещает строковые и численные форматы данных
# Целесообразность использования выбранного датасета
- Датасет содержит инофрмацию о фильмах, которые пользователь оценил на сайте IMDb.com
- Датасет также содержит поверхностную информацию о фильме, которую можно узнать до просмотра
- Наличие IMDb id позволит добывать дополнительную информацию запросами к API TMDb
- Пользовательские оценки слабо коррелируют со средним рейтингом IMDb, как и прочие
- Распределение оценок пользователя, говорит о том, что бинарная классификация не подойдет
- Ни один из параметров не дает однозначной рекомендации (на изображении сравнение feature importance признаков)
# Deployment diagram
Диаграмма развертывания.
За страшным словосочетанием Document-oriented DB прячутся непосредственно
- Хранилище артефактов (моделей и метрик)
- Хранилище пользовательских датасетов
# Process diagram
Диаграмма процессов