Чемпионат по машинному обучению от ПАО «Сбербанк»

Boosters.pro предлагает вам решить задачу по автоматизации оценки коммерческой залоговой недвижимости, интеллектуальным партнером чемпионата является ПАО Сбербанк - крупнейший банк России и один из крупнейших банков Европы.

При выдаче кредитов важным фактором, влияющим на принятие решения, является залог. В работе с юридическими лицами залогом часто является коммерческая недвижимость. На данный момент этот процесс выполняется вручную экспертами банков, на что тратится много времени и ресурсов. Автоматизация данного процесса увеличит эффективность работы сотрудников и сократит расходы банка.

Главная особенность соревнования заключается в том, что участникам предстоит решать реальную бизнес задачу, которую команда победитель будет дорабатывать в рамках договора с ПАО Сбербанк. Решение, созданное на основе предоставленного датасета, лишь частично удовлетворяет потребность бизнеса, поэтому участникам предстоит дополнить базу данных своими силами.

Возможным источником датасета является объявления о продажи недвижимости в интернете, наибольшая часть информации о недвижимости содержится в тексте объявлений, поэтому анализ текста может быть очень полезным для увеличение точности алгоритма. Также полезной информацией являются геоданные (http://wikimapia.org/- возможный источник). Участникам предоставляется полная свобода в сборе дополнительных данных и создании алгоритма в соответствии с правилами соревнования.

Правила

  1. Все сторонние программы использованные в решение задачи должны быть выпущены под лицензией позволяющей их свободное коммерческое использование.

  2. Команда должна содержать в себе от 1 до 5 участников.

  3. Получение вознаграждения означает передачу исключительных интеллектуальных прав на код и его документацию.

  4. В течение дня участник может отправить не более 3 решений задачи.

  5. Отправлять ришении может только капитан команды.

  6. В случае победы в чемпионате предоставить по электронной почте организатору всю необходимую для получения вознаграждения информацию.

  7. Чемпионат проходит в два этапа. Первые три команды определяются автоматически как команды получившие максимально высокий рейтинг на сайте на 00:00 20.12.2016 . Распределение команд финалистов по трём призовым местам остаётся за организаторами и партнерами. Финалисты должны будут предоставить код и документацию в срок не позднее 21.12.2016. Команды финалисты должны будут оформить презентацию с описанием их решения в срок не позднее 27.12.2016. Документацию и код должны будут предоставить команды занявшие места с 4 по 10 включительно, так как эти команды также могут получить предложение о сотрудничестве с ПАО "Сбербанк".

  8. Запрещается использование программного обеспечения, нарушающего работу сайта и создающего возможность изменения результатов чемпионата, участники чемпионата предпринявшие такие попытки, лишаются прав на участие в чемпионате и получение вознаграждения.

  9. Запрещается регистрировать аккаунт от имени лица которым не является участник (фальшивый аккаунт), при регистрации участник должен указывать только достоверную информацию и данные. Один человек имеет право на создание одного аккаунта на сайте, в противном случае, все аккаунты считаются фальшивыми и блокируются.

  10. Совершая действия, направленные на участие в чемпионате, участник дает свое согласие на обработку и хранение своих персональных данных. Организатор чемпионата гарантирует, что все персональные данные, сообщенные участниками чемпионата, будут храниться и обрабатываться в соответствии с положениями действующего законодательства Российской Федерации.

  11. Организатор оставляет за собой право в одностороннем порядке вносить изменения в настоящие правила без какого-либо специального уведомления, но с обязательным опубликованием на сайте boosters.pro. В случае несогласия с настоящими правилами или его обновлениями участники обязаны отказаться от использования сайта.

  12. К участию в конкурсе не допускаются аффилированные лица организатора (ПАО Сбербанк, дочерние и зависимые общества) и иные лица, прямо или косвенно связанные с организацией проведения данного чемпионата, в том числе сотрудники ПАО Сбербанк, дочерних и зависимых сообществ.

  13. Запрещен обмен кодом и данными между командами.

Вознаграждение

Общий призовой фонд – 700 000 рублей

Призовые места:

  1. 300 000 рублей (+ 150 000 рублей, если выполнены условия «А» и «Б»)
  2. 150 000 рублей
  3. 100 000 рублей

А) Команда занявшая первое место получает дополнительные 50 000 рублей, если использовала в своем решение дополнительные данные, количество которых превышает 50% от предоставленных.

Б) Команда занявшая первое место получает дополнительные 100 000 рублей, за автоматическое заполнение полей на основе собранных данных (добавить и заполнить пустые поля в тренировочной выборке, соответствующие заполненным полям в тестовой выборке).

Команда победитель получает предложение о доработке продукта, в рамках дополнительного контракта с ПАО Сбербанк.
Команды занявшие второе и третье место также имеют возможность на предложение о доработке продукта.

Расписание

Общий срок чемпионата: 22.11.2016 - 20.12.2016

Чемпионат по машинному обучению от ПАО «Сбербанк»

Оценка алгоритма

Метрикой качества в задаче является RMSLE

RMSLE

Пример решения

Ваше решение должно соответствовать примеру, отправлено в формате .csv и выражаться в тысячах рублей (т.е. если стоимость объекта 1 000 000 рублей ответ должен быть 1 000), в противном случае ваше решение не будет принято.
Файл с решением в следующем формате:

_ID_,_PRICE_
1,10000
2,15000
...и т.д.

Метрикой качества в задаче является процент попаданий в прямоугольник на сфере (latitude +- 0.002, longitude +- 0.002)

Пример решения

_ID_,_LAT_,_LON_
0,55.0538498776,82.9135831807
1,55.7486184713,37.6299661551
...
6481,55.6308743288,37.6247911942

Чемпионат по машинному обучению от ПАО «Сбербанк»

Данные

Вам предстоит автоматизировать оценку коммерческой недвижимости. Участникам предоставляется полная свобода в сборе дополнительных данных. Ответ должен состоять из id объекта оценки и его цены.

Файлы

Название
Скачать
champ1_test.csv
champ1_train.csv

Описание данных

Колонка
Описание
_ID_
ID записи
_CITY_
Город
_ADRS_
Адрес (улица, дом)
_OBJ_TYPE_
Тип помещения
_TTL_S_
Общая площадь
_F1_S_
Площадь 1-го этажа (кв. м.)
_F1_U_
Назначение площадей 1-го этажа
_FC_S_
Площадь цоколя (кв. м.)
_FC_U_
Назначение площадей цоколя
_F0_S_
Площадь подвала (кв. м.)
_F0_U_
Назначение площадей подвала
_FA_S_
Площадь антресоли (кв. м.)
_FA_U_
Назначение площадей антресоли
_F2_S_
Площадь 2-го этажа (кв. м.)
_F2_U_
Назначение площадей 2-го этажа
_F3_S_
Площадь этажей выше 2-го (кв. м.)
_F3_U_
Назначение площадей антресоли
_AREA_
Район расположения в городе (центр, окраина, деловой центр и т. д.)
_CHARACT_
Характеристика улицы, проспекта, переулка и т.п, где располагается помещение
_LINE_
Линия расположения по отношению к улице, проспекту, переулку ит.п, где располагается помещение
_METRO_
Удаленность от метро
_ROUND_
Окружение
_FOOT_TRAF_
Пешеходный трафик
_IS_PRKNG_
Наличие и тип парковки
_IS_WIN_
Наличие витринных окон
_IS_SEP_ENT_
Наличие отдельного входа
_IS_VENT_
Наличие и тп системы центральной вентиляции и кондиционирования
_DECOR_
Уровень отделки
_IS_COM_
Наличие коммуникаций
_F1_H_
Высота потолков 1-го этажа
_DATE_
Дата оценки

Тренировочная выборка

Колонка
Описание
_ID_
Id записи
_TYPE_
тип помещения(офис, склад...)
_ADDRESS_
Адрес
_PRICE_
Цена
_AREA_
Полная площадь
_METRO_
Список (если имеются) ближайших станций метро с расстоянием до них в формате — станция1-расстояние1;станция2-расстояние2;...
_LAT_, _LON_
Широта, долгота
_DESC_
Полное описание

Чемпионат по машинному обучению от ПАО «Сбербанк»

Финальный рейтинг

#
Участник
Результат
1
skyNET
0.4844
2
еу
0.4901
3
Школьник
0.5139
4
geogeeks
0.5161
5
Coffea arabica
0.5195
6
McDee
0.5300
7
Kappa
0.5321
8
Воинствующая Окрошка
0.5397
9
qweeze
0.5534
10
willda
0.5538
11
Catalysis
0.5660
12
Мы оба Сквидварды
0.5674
13
ST
0.5730
14
rabbit
0.5916
15
/╲/( ͡° ͡° ͜ʖ ͡° ͡°)/\╱\
0.5961
16
DreamTeam
0.6005
17
State of the Art
0.6008
18
drz
0.6244
19
worms
0.6300
20
JohnSoul
0.6432
21
asdf
0.6584
22
asdf
0.6597
23
asdf
0.6651
24
ilya
0.6652
25
Nes
0.6659
26
J
0.6692
27
pascal_programmer
0.6718
28
mishadav
0.6739
29
Белая Ладья
0.6747
30
enigma
0.6751
31
comand
0.6760
32
ёлочка
0.6900
33
asdf
0.6957
34
Виталик
0.6961
35
mars
0.6981
36
atom
0.6991
37
vitaly.baj
0.7008
38
Новичок
0.7019
39
Lenin
0.7045
40
German Gref
0.7045
41
dronov
0.7046
42
Олег Тиньков
0.7081
43
nick.semenov
0.7088
44
rak
0.7169
45
Iskuskov
0.7200
46
no whammies
0.7208
47
ПАО «Сбербанк»
0.7279
48
pro
0.7281
49
touring
0.7314
50
EgorP
0.7350
51
Питер007
0.7409
52
Osipov
0.7412
53
носкиТиньковаПобедятТинькова
0.7477
54
eduard
0.7486
55
DataR
0.7526
56
ghtewdv
0.7556
57
bankir
0.7564
58
mops
0.7596
59
Нужны деньги
0.7608
60
КАВКАЗ
0.7709
61
mladshiy
0.7745
62
torbochev
0.7753
63
alex.b
0.7765
64
DreamBreaker
0.7781
65
Savin
0.7783
66
bell
0.7804
67
Fuck Police
0.7805
68
Denis
0.7817
69
Дауни
0.7831
70
L?D
0.7833
71
kac
0.7872
72
yan
0.7899
73
Череповец
0.7917
74
chief
0.7982
75
fafa
0.8057
76
Подпольные кожееды
0.8059
77
СемёнСемён
0.8061
78
Рашид
0.8139
79
OL
0.8148
80
ГСМ
0.8166
81
Yo
0.8184
82
hummel
0.8307
83
Sampling with replacement
0.8342
84
просто впихнул в xgboost
0.8826
85
Leks
0.8993
86
PJ_dark
0.9020
87
Mops_Team
0.9230
88
rupa
1.0233
89
Sweet Aspirin
1.0306
90
8
1.0337
91
Тута
1.0364
92
Black Cat
1.0532
93
SudoKill
1.0678
94
chuguyster
1.1691
95
toly
1.2058
96
Денис Митрофанов
1.2295
97
Coders
1.2667
98
ежик
1.5411
99
LightOS
1.6440
100
A13
1.9122
101
luchi
1.9891
102
so far alone atikhonov
2.1911
103
attas
2.2203
104
100 trees don't lie
6.9235
105
mllm
7.4993
106
Meat And Dairy Institute Of Reznichenko
7.6829
107
Зайцы
8.0158
108
Подвальные котики
8.5871
109
nsdfyd
8.6156