Хакатон SAS по анализу данных

SAS является крупнейшей в мире частной IT компанией, работающей в области бизнес-аналитики. Круг предлагаемых компанией решений и услуг охватывает все этапы работы с информацией – от сбора и обеспечения качества данных до процессов их анализа и построения наглядной аналитической отчетности.

На хакатон приглашаются молодые специалисты в области машинного обучения и анализа данных. Участникам предстоит в течение двух дней решать задачи по анализу данных с помощью инструментов SAS.

Задача заключается в оценки лояльности клиентов Банка Хоум Кредит. Вам предстоит на основании данных о клиенте построить прогнозную модель, которая будет способна предсказать удовлетворенность клиента и его готовность рекомендовать банк.

SAS, Home Bank, ACloud

Также перед хакатоном пройдет лекция по теме «Математика Вконтакте: профиль из соцсети в скоринге клиентов».

На лекцию приглашаются люди, которые не учавствуют в хакатоне.

Просим предварительно зарегистрироваться.

Учебные материалы

Для подготовки к хакатону рекомендуем ознакомиться и использовать обучающие ресурсы:

  1. e-Learning
  2. Видео уроки

Информационный партнёр:

МФТИ

Правила

  1. Команды состоят из 2-4 участников.

  2. Если вы не смогли собрать команду, регистрируйтесь как одиночный участник и мы соберем Вам команду в день хакатона.

  3. Подача заявок пройдет до 28.04.2017 23:59 (МСК).

  4. Запрещается регистрировать аккаунт от имени лица которым не является участник (фальшивый аккаунт), при регистрации участник должен указывать только достоверную информацию.

  5. Совершая действия, направленные на участие в чемпионате, участник дает свое согласие на обработку и хранение своих персональных данных. Организатор чемпионата гарантирует, что все персональные данные, сообщенные участниками чемпионата, будут храниться и обрабатываться в соответствии с положениями действующего законодательства Российской Федерации.

Расписание

29 апреля (суббота)

  • 12.00 – 12.20: Открытие мероприятия, всех желающих ждут смузи и свежевыжатые соки.
  • 12.20 – 13.15: Лекция-кейс «Математика ВКонтакте. профиль из соцсети в скоринге клиентов»
    Лекция для всех желаниющих, независимо от участия в хакатоне.
    Расскажем о том, как внешние текстовые данные помогают точнее прогнозировать потенциальную убыточность клиента страховой компании.
    • данные из соцсетей как внешний источник данных
    • технологии SAS для обработки текста
    • как использование данных из соцсетей может повысить точность прогнозных моделей
  • 13.30 – 16.00: Мастер-классы
    1. Мастер класс по основам построения моделей прогнозирования в SAS Enterprise Miner
    2. Мастер класс по по обработке данных на SAS Enterprise Guide
  • 14.30 – 15.00: Обед
  • 16.30 – 21.00: Хакатон. Работа над задачей
  • 21.00 – 21.30: Ужин
  • 21.30 – 23.59: Хакатон. Работа над задачей

30 апреля (воскресенье)

  • 00.00 – 10.00: Хакатон. Работа над задачей
  • 10.00 – 10.30: Завтрак
  • 10.30 – 13.00: Хакатон. Работа над задачей
  • 13.00 – 15.00: Окончание работы, подведение итогов, презентации участников
  • 15.00: Определение победителей, вручение призов, общение с участниками мероприятия

Партнёры хакатона

SAS Institute

Компания SAS является крупнейшей в мире частной IT-компанией, специализирующейся на разработке и продаже решений и услуг в области бизнес-аналитики. Компания основана в 1976 году, и сегодня в ее офисах по всему миру работают более 14 тысяч сотрудников. В течение 40 лет годовой доход SAS постоянно возрастал и в 2015 г. достиг 3,16 млрд долларов. Клиентами SAS являются более 80 тысяч организаций в 149 странах мира. Среди них – 91 компании из первой сотни лидеров, включенных в список «2015 FORTUNE Global 500®». По данным IDC на середину 2015 года, SAS занимает более 33% мирового рынка углубленной аналитики.

Банк Хоум Кредит

Банк Хоум Кредит занимает лидерские позиции на рынке финансовой розницы России. Входит в ТОП-10 по кредитам физическим лицам, занимает первое место на рынке потребительских кредитов в точках продаж.

ActiveCloud

ActiveCloud — хостинг-провайдер облачного хостинга. Хранение баз даных, баз 1С и файлов в облаке, аренда выделенных серверов и дата центр в России, виртуальный хостинг сайтов. Надежные защищенные решения. Оптимизация расходов на IT-инфраструктуру в компании.

Место проведения

Хакатон пройдет в технопарке «Физтехпарк». Технопарк расположен в пяти минутах ходьбы от основных корпусов МФТИ и Ж/д станции “Новодачная” (20 минут от Савеловского вокзала, 30 минут от Белорусского вокзала). Также удобно добираться от станции метро Алтуфьево (10 минут на маршрутке).

Хакатон SAS по анализу данных

Описание набора данных

Общая выборка составлена из 200835 записей с информацией о клиентах (1 строка = 1 клиент) и разделена на обучающую (140825 записей) и проверочную (60010 записей).

Выборка включает 2100 колонок-предикторов, колонку целевой переменной TARGET и служебную колонку с идентификатором ID. Полный бизнес смысл данных содержащихся в колонках-предикторах недоступен, данные анонимизированы. В выборке содержатся социально-демографические данные о клиенте, данные о продуктах различных типов, в том числе в разбивке на первый активированный, последний активированный и все остальные продукты, а также история использования продуктов в детализации в том числе по трём временным периодам.

Технические или иные данные, необходимые для участников хакатона

Алгоритм должен получать на вход тренировочный и тестовый наборы данных в заданных форматах, рассчитывать необходимые предикторы, строить модель прогнозирования оценки удовлетворенности клиентов. Построенная модель должна применяться к тестовой выборке и результат записываться в файл в формате SAS, обязательно содержащем 4 колонки: ID записи и P_TARGET0, P_TARGET1, P_TARGET_1, где сохранены вероятности принадлежности записи классам 1, 0 и -1 соответственно. Допустимой средой разработки является исключительно продукт SAS Enterprise Miner.

Детальное описание критериев отбора победителей конкурса

Победители определяются среди участников соревнования. Участники до начала соревнования объединяются в команды в составе от 3 до 5 человек в каждой. Каждая команда разрабатывает модель, качество которой оценивается на тестовой выборке. Оценка качества модели.

Для оценки качества модели на тестовой выборке используется критерий LogLoss, вычисляемый по формуле:

LogLoss

где N – число записей в тестовом наборе, - индикаторная переменная, показывающая принадлежит ли i-я запись j-ому классу, - значение прогноза вероятности принадлежности i-ой записи j-ому классу, которое выдала проверяемая модель, с учетом «отступов от нуля», вычисляемое по формуле:

LogLoss2

Количество лучших команд по итогам проведения конкурса

3 команды, представившие модели с лучшей мерой качества на тестовом наборе данных, объявляются победителями соревнования и награждаются сертификатами победителей соревнования и ценными призами от ООО «САС Институт» и ООО «Хоум Кредит энд Финанс Банк».

Для участие в хакатоне, вы должны быть зарегистрированным пользователем.