Поможет ли показатель xG в прогнозировании футбольных матчей и получении прибыли?

Автор Pinnacle25.06.2023 , 00:50
Поможет ли показатель xG в прогнозировании футбольных матчей и получении прибыли?

В этом материале читаем о концепции ожидаемого количества голов. Также узнаем о концепции xG для прогнозирования исходов футбольных матчей в модели Диксона-Коулза

Показатель ожидаемого количества голов часто используется как инструмент прогнозирования. Однако могут ли действительно игроки на ставках использовать ожидаемое количество голов для определения точного исхода матча? Аналитик в сфере размещения ставок Джозеф Бухдаль изучает данные и определяет, может ли показатель ожидаемого количества голов помогать в прогнозировании исходов футбольных матчей.

В мире ставок на спорт уже давно известна концепция ожидаемого результата и, в частности, идея математического ожидания. Одни ставки выигрывают, другие – проигрывают, однако большая часть исходов обычно зависит лишь от удачи игрока. В долгой перспективе понимание математического ожидания позволяет игроку на ставках оценить, сколько он способен выиграть, разместив большое количество ставок. «Ожидание» – это синоним арифметического среднего или просто усредненного результата.

Сравнительно недавно концепция математического ожидания стала известна в мире футбола благодаря понятию ожидаемого количества голов или же xG. Ожидаемое количество голов используется в качестве метрики результативности, предназначенной для оценки успешности команды или игрока путем присвоения вероятности такому игровому моменту, который способен стать причиной гола.

Расчеты метрики производятся с учетом исторических данных для таких же игровых моментов и кэфов их преобразования в голы. Значение xG для одного игрового момента будет ограничено 1 и 0. Кроме того, если мы просуммируем значения xG в матче с некоторым количеством игровых моментов, которые могли стать причиной гола, то можем получить значение xG для всего матча или же (что используется гораздо чаще) значение xG для каждой команды в матче.

xG предлагает более точную репрезентацию качества игры участвующих в матче команд.

На теоретическом уровне xG дает более точную репрезентацию качества игры участвующих в матче команд и более точно демонстрирует превосходство одной команды над другой по сравнению с простым счетчиком голов.

Иногда забить гол помогает некоторая степень удачливости (которую эксперты в статистике называют «шум»). Поэтому использование действительных результатов для прогнозирования успешности команды в следующем матче может оказаться менее надежным, чем использование xG.

В некотором смысле голы соответствуют выигрышам и проигрышам в ставках, а ожидаемое количество голов эквивалентно математическому ожиданию. Если это действительно так, можем ли мы использовать xG вместо голов, чтобы предсказать исход футбольного матча ради получения прибыли от ставки?

Количество голов против xG

Математик и автор книги «Футболоматика» (Soccermatics: Mathematical Adventures in the Beautiful Game) Дэвид Самптер описал некоторые наблюдения, касающиеся относительной полезности количества голов в сравнении с xG при попытке спрогнозировать исход грядущих матчей. Самптер иллюстрирует сложность поиска полезных данных для прогноза в сведениях, касающихся исключительно голов.

«Придерживаясь точки зрения статистики, можно утверждать, что результат футбольного матча содержит столько же шума, сколько и полезных данных. Математическое объяснение этому феномену можно обнаружить непосредственно в распределении Пуассона. Голы в футболе распределены по Пуассону, и в среднем команды забивают 1,4 гола за матч. Дисперсия и среднее значение эквивалентны в распределении Пуассона. Поэтому стандартное отклонение равно квадратному корню из 1,4, что соответствует 1,18. Выходит, что значение шума (1,18) лишь немного уступает значению полезных данных (1,4)».

Напротив, xG является оценкой создаваемых шансов, так что этот показатель подходит для оценки команды в рамках отдельного матча лучше количества голов.

Обычно он содержит меньше шума и больше полезных данных. По мере увеличения количества исследуемых матчей объем шума уменьшается как для количества голов, так и для xG. Впрочем, коэффициент снижения шума для xG обычно обладает большим значением, чем коэффициент для количества голов.

Самптер использует эту информацию, чтобы порекомендовать обращать внимание на данные определенного типа в тех случаях, когда игрок пытается составить прогноз на будущие игры. В контексте одного или двух матчей сам отчет о матче предоставит наиболее полезную информацию.

А вот для выборок, размер которых превышает 15 матчей или добрую половину сезона, данные о голах потенциально могут быть так же полезны, как и данные xG. Шума все еще будет больше, однако разница окажется гораздо меньше. Более того, голы отражают реальность, сообщая о том, что случилось в матче, а xG – это лишь вероятностная модель шансов на забивание гола. Если она окажется не так уж точна, то модель и вправду может быть менее надежной, чем просто данные о голах.

В пространстве между этими крайностями находится весьма привлекательная зона, в которой открывается перспектива использовать xG в качестве инструмента для составления прогнозов. Самптер утверждает, что отчет о xG окажется наиболее полезным в границах от трех до шести матчей, а вот пределы от семи до 15 матчей могут лучше подходить для сравнения количества голов xG. Для этой статьи я построил прогнозную модель xG, которая использовала шесть наиболее недавних игр команды для оценки того, можно ли использовать соответствующий показатель в целях получения прибыли по ставке.

Модель Диксона–Коулза

Наиболее тщательно задокументированный подход к прогнозированию футбольных матчей был опубликован Марком Диксоном (из Университета Ланкастера) в издании Journal of Applied Statistics (Журнал практической статистики) в 1997 году. Модель, получившая название модели Диксона-Коулза, развивает концепцию силы обороны и нападения путем сравнения в рамках определенного количества состоявшихся матчей усредненного показателя забиваемых голов для каждой команды с показателем пропуска голов от соперников по лиге. Эти данные затем используются для оценки ожидаемого количества голов, которые каждая команда забьет в своей следующей игре. 

Наконец, распределение Пуассона применяется для расчета вероятности отдельного количества забитых голов, при этом ожидаемое количество голов используется в качестве среднего значения распределения. На сайте Pinnacle ранее выходила статья, описывающая методологию модели.

В нашем случае я адаптировал модель для использования xG вместо голов, рассчитав силу нападения и обороны в шести последних домашних или гостевых матчах. Мой набор данных содержит сведения матчей премьер-лиг Англии, Франции, Германии, Италии и Испании за сезоны от 2015–2016 до 2019–2020 гг.

Спрогнозированные результаты для победы хозяев, победы гостей или ничьей были преобразованы в предполагаемые справедливые коэффициенты ставок, а затем сравнены с коэффициентами Pinnacle для линии закрытия. Если второе значение оказывалось выше, то у прогнозной модели появлялась некоторая теоретическая ценность. Ставки на значения затем сравнивались с результатами.

Диаграмма ниже показывает прибыльную серию игр для 7795 возможностей размещения ценных ставок, которые были выбраны моделью из возможного тотала величиной 18 006 случаев. Прибыль фиксированной ставки с учетом терновера составляет –5,0 %. Это сравнимо с убытком величиной –4,3 %, ведь каждый кратный 18 006 результат относился к ставке, которая была размещена вслепую и составляла одну условную единицу. Так как усредненное математическое ожидание для выборки было равно 38,9 %, назвать подобный результат разочаровывающим было бы слишком снисходительно.

Потенциальная недействительность модели

Возможно, первым подтверждением неудачного построения модели может стать само значение среднего математического ожидания.

Средние коэффициенты величиной 4,69, которые составляют практически 40 % от среднего математического ожидания для ставок, покрывающих практически треть возможных игровых моментов, отчетливо указывают на наличие огромной дисперсии предполагаемых справедливых коэффициентов ставок по сравнению с действительными коэффициентами Pinnacle.

График корреляции между прогнозными значениями xG модели и действительными значениями xG, записанными для соответствующей прогнозу игры, подтверждает эту гипотезу.

Здесь мы можем увидеть большой объем шума, ведь смоделированный показатель xG не очень хорошо справляется с точным прогнозом действительного количества xG для команды в матче.

Не так уж просто отыскать первопричину сбоя в модели, ведь в ней можно найти как минимум четыре проблемы. Во-первых, использование модели Диксона-Коулза для прогнозирования счета в футбольных матчах может иметь врожденные недостатки. Распределение Пуассона по своей сути подразумевает, что забивание каждого гола является независимым от других случаев событием, то есть один забитый гол не приводит к забиванию другого гола. Впрочем, тогда мы игнорируем влияние психологии игрока и команды. Команды, которые начинают отставать в матче, могут получить дополнительную мотивацию к изменению сложившегося баланса, а команды, которые уравняли счет, могут стремиться усилить давление на противника.

В этом случае идея того, что забивание голов происходит на случайном основании, выглядит сомнительной.

Диксон и Коулз сообщали, что их исходная прогнозная модель занижала частоту возникновения малого количества голов (0:0, 1:0, 0:1 и 1:1). Для того чтобы подтвердить этот вывод, я по отдельности переупорядочил мои результаты xG, полученные на основании прогноза модели, и данные об xG, полученные в настоящих матчах: я расставил результаты от наименьшего к наибольшему и представил их в виде искусственной корреляции ниже (сплошная линия).

Очевидно, что в реальности нас ждет меньше результатов с низкими значениями xG, чем предсказывает моя модель, при этом результатов с высокими значениями xG оказалось больше, чем должно было быть (пунктирная линия). Наблюдение Диксона и Коулза, похоже, применяется и к xG, и это открытие не стало совершенно неожиданным, так как голы в матчах и xG для матчей хорошо коррелируют на больших выборках данных.

Вторым возможным источником ошибки может являться сама модель xG. Для моей выборки данных тотал xG составлял 97,8 % от действительного количества голов, забитых в рамках матчей. Совпадение кажется весьма точным, однако сложно наверняка сказать, достаточно ли имеющегося отличия для того, чтобы повлиять на правдоподобность прогнозной модели xG.

Третьим источником ошибки может быть мой выбор перечня недавних игр, используемых для расчета силы нападения и обороны по Диксону-Коулзу. По причинам, описанным ранее в статье, я выбрал шесть матчей. Возможно, другое количество игр (большее или меньшее) предоставило бы более оптимальные результаты. Такое изменение можно было бы реализовать сравнительно просто, однако для его учета пришлось бы полностью перезапустить модель, а этим заниматься я пока не планирую.

Кроме того, все шесть игр получили одинаковый вес в модели. Диксон и Коулз признавали, что более недавние матчи должны, пожалуй, обладать большим весом при расчете усредненных показателей силы, а также начали использовать параметр веса в более поздних версиях своей модели. Это изменение я также мог бы встроить в свою модель, однако такая процедура потребовала бы от меня больших временных затрат, поэтому я отказался от этой идеи. Наконец, стоит упомянуть последнюю и, возможно, более экзистенциальную проблему моей модели, которая касается попыток получения прибыли от прогнозирования футбольных матчей.

Если оставить в стороне все другие возможные источники ошибок, то даже качественная модель xG, которая превзойдет мою модель, очевидно, может не справиться с обеспечением стабильного дохода, так как модель букмекера, предназначенная для составления коэффициентов, может оказаться еще лучше.

Для модели Диксона-Коулза имеется подробная документация, а метрика xG сейчас получила широкое распространение, так что возможно и такое стечение обстоятельств, при котором вся имеющаяся информация, которая используется для прогнозирования, уже была учтена в коэффициентах букмекера.

Соревнование с относительностью навыков

Размещение ставок на спорт весьма схоже с теми соревновательными видами спорта, с которыми связано это занятие. Мы имеем дело с соревнованием относительных значений навыка между двумя или несколькими сторонами, которые пытаются предсказать будущее лучше своих соперников.

Чем более квалифицирован участник соревнования прогнозов, тем более надежной и правдоподобной окажется его оценка истинных вероятностей исходов (и коэффициентов для ставок). Ошибки караются финансовыми «пенальти».

Pinnacle, пожалуй, располагает наилучшими аналитиками данных среди букмекеров, и потому у компании имеются по-настоящему надежные прогнозные модели, которые на голову превосходят мои расчеты. Мы знаем, что у Pinnacle есть клиенты, которым удается стабильно получать прибыль, однако ранее я уже упоминал о том, насколько редкими могут быть такие случаи.

Если экспертность Pinnacle представляет собой аналог «Астон Вилла» среди прогнозных моделей, то умные клиенты больше похожи на «Ливерпуль» или «Манчестер Сити».

Конечно, можно использовать хорошую модель (например, Reading или Derby) для составления отличных прогнозов, но они могут оказаться недостаточно стабильными для того, чтобы превзойти наилучшие модели. Моя модель, вероятно, не смогла бы сравниться даже с Истмийской лигой.

xG также может предоставить полезные ресурсы для построения прогнозной модели.

Что касается того, можно ли эффективно использовать xG для заработка на рынке ставок на футбол, проблема заключается в следующем. Предоставляемые прогнозной моделью коэффициенты, являются отражением качества информации, которая учитывается этой моделью.

Модель xG действительно может быть полезным источником данных для построения прогнозной модели, но если Pinnacle реально учитывает эту информацию в собственной модели вместе с другой полезной информацией, которой я не располагаю, моя прогнозная модель не сможет превзойти модель этой компании.

Любая информация, которая содержится в моих данных xG, уже учтена в коэффициентах букмекера. Как будто «Канви Айленд ФК» сражается с «Астон Вилла».

Если Pinnacle (и другие букмекеры) уже применяют xG в своих прогнозных моделях и моделях формирования коэффициентов (которые, вероятно, используют все имеющиеся широко доступные данные), то вряд ли используемые мной данные могут оказаться лучше данных букмекеров.

Так могут ли данные xG помочь мне получить прибыль в сфере размещения ставок на спорт? Как и в случае с любой другой формой анализа данных для размещения ставок, ответ будет зависеть от того, как вы будете использовать эту модель. Ваши методы должны предоставлять более точные результаты, чем имеющиеся у букмекеров.

Рекомендуем