Bootstrap

Picking winners: Diversification through portfolio optimization

引言

我们开发了一个通用框架,用于选择一小部分候选解决方案,以最大限度地提高在线性和加性随机回报函数下组合优化问题的最优机会。我们使用一个两阶段分布鲁棒模型和一个混合的0–1半定规划来公式化这个问题。这种方法使我们能够利用问题中固有的“多样化”效应,来解决如何选择不同的候选解决方案,以提高获得高事后回报的机会。更有趣的是,使用这种分布式鲁棒优化方法,我们的模型在适当的设置下恢复了足球台球博彩领域众所周知的“邪恶双胞胎”策略。
我们还解决了扩大我们的方法以构建适度数量的候选解决方案的计算挑战,以增加找到性能良好的解决方案的机会。为此,我们开发了一种基于问题的紧致半定规划重新表述的序列优化方法。大量的数值结果表明,我们的方法优于现有的方法。
在挑选赢家问题中,目标是选择一组候选解决方案,以最大限度地提高事后最佳解决方案的预期“分数”(Hunter et al.,2016)。
每个解决方案的得分由线性和加性随机回报函数确定,该函数基于所选解决方案以及一系列(随机)事件中实现的回报/结果。该框架可用于对“高回报、低概率”赢得所有比赛中的各种问题进行建模。例如,一家风险投资基金选择一组初创公司进行投资,希望其中一家能在市场上取得巨大成功。类似地,一名参赛者在每天的梦幻体育比赛中选择了多个(球员的)阵容,并希望其中一个被选中的阵容能获得足够高的总分来赢得比赛。同样,参赛者进入体育博彩池,对一系列比赛的结果进行预测,希望获得最高数量的正确预测。在所有这些问题中,接下来的问题是构建候选解决方案的组合,以便表现最好的候选方案的事后表现是最优的。为此,我们在本文中开发了一种新的方法来捕捉投资组合选择问题中固有的“多样化效应”,克服了使用凸重新表述来近似该问题的性能评估的技术困难。
DeStefano等人(1993)研究了足球台球博彩中的一个相关问题。目标是预测一系列比赛的结果(主队的输赢),池中正确预测次数最多的投注者获胜比赛。DeStefano等人(1993)通过提交两个条目(每个条目1美元),第二个条目是第一个条目的“邪恶双胞胎”(即,在每场比赛中下注相反的结果),发现在独立且相同分布的设置下(即,每场比赛的结果独立且可能性相等),当m名其他投注者在每场比赛中以相同的概率独立选择他们的投注时,邪恶双胞胎策略可以获得显著的优势,对邪恶双胞胎策略的预期回报是$2(m+2)m+1(1−1 2m+1)>2。通过利用该投资组合中的多样化效应和两个候选解决方案,邪恶双胞胎策略能够提高天真策略(随机选择每个游戏的结果)的预期回报。
然而,这种邪恶的双胞胎策略在一般情况下并不奏效,尤其是当项目的效用/收益不相同且可能相关时。对于更一般的情况,通过假设随机收益是正态分布的,Hunter等人(2016)构建了一个由混合整数线性规划模型引导的投资组合。该模型的目标是最大限度地提高其中一个候选解决方案赢得比赛的概率。他们使用序列整数程序根据以下启发式方法构建投资组合:“首先,参赛作品的分数应该有很大的期望值和方差,这会增加参赛作品获胜的边际概率。其次,参赛作品之间的相关性也应该很低,以确保它们涵盖了大量可能的结果。“这启发了Bergman等人最近的工作。(2023),他专注于构建投资组合中的两个候选解决方案。在正态性的假设下,他们使用了两个(正态)随机变量的预期最大值的相关闭式表达式来解决问题。基于这一结果,他们设计了一种分支切割算法来构造这种特殊情况下的最优投资组合。
正态性假设有助于简化问题,并产生优雅的结构特性。然而,将这些见解扩展到两个候选解决方案之外似乎是棘手的。此外,这一假设在实践中可能不成立。以梦幻运动为例。如图1所示,它使用真实数据绘制了玩家幻想得分的拟合概率分布。不幸的是,最佳拟合分布(蓝色)与正态分布(红色)明显不同。
在这项研究中,我们使用了一种更直接的基于矩的分布鲁棒优化方法来构建候选解。这使我们能够通过构造问题的凸近似来利用矩理论的最新结果。更具体地说,我们使用了基于Natarajan等人的完全正交叉矩模型(CPCMM)。
(2011年)。利用该模型,我们得到了给定投资组合的随机次序统计问题的期望值的一个紧上界。有趣的是,这个分布鲁棒优化问题可以公式化为广义完全正规划(CPP)。这种方法将矩矩阵(具有给定的均值和协变量)分解为有限个数的凸组合一阶矩阵。这可以被视为一组场景(概率由凸组合中的系数给出),产生投资组合的“最佳情况”表现。多元化效应的产生是因为我们正在构建一个在各种场景中都能很好工作的解决方案组合。这类似于Scarf对健壮的新闻供应商解决方案的著名方法。通过固定需求分布的均值和方差,Scarf在最坏情况下获得了基于2点分布的稳健报贩解决方案(Scarf,1957)。这里的区别在于,我们不是搜索最坏的性能(保守),而是求解最佳情况下的性能。更重要的是,这自然导致了一种易于处理的混合0–1半定规划(SDP)近似算法,该算法用于为挑选赢家问题构建良好的投资组合。
符号我们用粗体字母来表示向量,例如x∈ℝn、 并使用粗体大写字母来表示矩阵,例如A∈ℝm×n;xi表示向量x的第i个元素,Aij表示矩阵A第i行第j列中的元素。
我们使用Ai,∙(或A∙,j)来表示矩阵A的第i行(或第j列)。随机变量或随机向量由波浪符号的字母表示,如x和x。具体地,设0和1表示具有适当大小的全0和全1的向量;设ei表示一个向量,在第i个条目中为1,在其他地方为0。我们用O和J分别表示一个0和1的矩阵。In表示一个n×n单位矩阵。设xT和AT表示向量x和矩阵a的转置。我们使用Diag(x)来表示对角线矩阵,其中x的项沿着对角线。设diag(A)表示由矩阵A的对角项形成的向量。矩阵A的迹线由Tr(A)表示。设vec(A)表示通过堆叠矩阵A的列而获得的向量。设A∙B表示矩阵A和B之间的内积,它也等价于Tr(ATB)。我们使用符号◦, 例如A◦B和x◦x、 以表示两个矩阵或两个向量之间的阿达玛乘积。一个集合的基数用|·|表示。对于任何整数n∈n,[n]是集合{1,…,n}的简写。我们用A⪰cpo来表示A是一个完全正矩阵,用A \109 28; O表示A是半正定矩阵。
2 相关文献
我们的问题与挑选赢家问题、体育博彩池、幻想体育和基于SDP的近似方法有关。我们简要回顾了与这些问题相关的文献。
挑选赢家问题我们的研究受到Hunter等人工作的启发。(2016)。
他们使用贪婪启发式以顺序的方式构建候选解决方案,基于以下设计原则:最大化解决方案性能的均值和方差,并最小化任何两种解决方案。Hunter等人(2017)将该框架应用于评估和选择初创公司的投资组合,最大限度地提高了至少一家公司成功的概率。
他们证明了挑选赢家问题中的目标函数是子模的,然后设计了一种有效的贪婪算法来解决这个问题。El Arini等人(2009)和Khuller等人(2009年)讨论了相关应用。
(1999年)。迄今为止提出的所有方法都利用了分析中正态分布的性质。我们的工作有所不同,因为我们放松了资源收益的正态性假设,并自然地获得了解决方案中的多样化效应,而不是使用约束来强制这种效应。
该问题也与订单统计优化问题有关。我们向感兴趣的读者介绍Ahsanullah和Nevzorov(2005)、Bertsimas等人(2006)和Mehta等人(2020)的详细信息。最近,Bergman等人(2023)专注于两种解决方案的情况,并使用顺序统计结果(针对两个正态随机变量)来设计这些问题的切割平面算法。我们的框架更通用,可以扩展到处理两个以上候选解决方案的问题
体育博彩池
Kvam和Sokol(2006)以及Brown和Sokor(2010)都建立了线性回归马尔可夫链模型来预测体育博彩池中每场比赛的结果。Caudill(2003)采用了最大得分估计器来预测NCAA男子篮球锦标赛的比赛结果。我们在模型中使用这些作为输入来研究不同体育博彩池策略的性能。有趣的是,DeStefano等人(1993)观察到,当池中的游戏是公平和独立的时,邪恶双胞胎策略具有显著的优势。Kaplan和Garstka(2001)展示了如何计算单淘汰赛的准确猜测次数的均值和方差。他们设计了一种体育博彩预测策略,以最大化办公室池中的预期总分,他们发现egy可以预测实际篮球比赛中58%的比赛获胜。Clair和Letscher(2007)开发了一个新的预测模型,该模型结合了游泳池参与者的行为,以最大限度地提高足球池和锦标赛式游泳池的预期回报。
幻想体育
这一文献的一个分支侧重于开发一种预测方法,以根据历史数据估计球员的表现(见King等人,2017;罗宾逊,2020)。多项研究试图为体育联赛选秀提供一种优化方法。Fry等人(2007)采用了一个随机程序来对团队决策过程进行建模。Becker和Sun(2016)提供了一种预测运动员和团队表现的方法,然后他们为选秀制定了一个混合的0–1整数优化模型。读者可以参考Beliën等人(2017)和Summers等人(2007)了解更多细节。尝试为日常幻想体育构建投资组合的研究相对较少。一项值得注意的工作是Hunter等人(2016),上面提到了这项工作,它提供了一种贪婪的启发式方法来构建阵容,并在实际比赛中取得了巨大成功。在此基础上,Haugh和Singal(2021)提供了一个优化框架来解释对手在日常幻想体育(DFS)中的团队选择行为。Bergman等人(2023)也应用了他们的方法,即最大化最大订单统计的期望,来选择DFS的阵容。

求解两阶段分布鲁棒优化问题的基于SDP的近似方法求解两阶段分布式鲁棒优化问题算法已被广泛研究。在这里,我们特别关注与我们的研究密切相关的基于SDP的近似方法。该方法的基本思想是将无限维优化问题等价地重新表述为有限维线性二次规划。此方法进一步近似这个锥是一个半正定锥,从而得到一个可处理的SDP。例如,G.Xu和Burer(2018)构造了一个正方公式来等价地表达在某些条件下具有不确定右手边的两阶段鲁棒优化问题,并提供了一种可处理的基于SDP的近似方法来解决这个问题。Hanasusanto和Kuhn(2018)证明,当基于2-Wasserstein球构建模糊集时,两阶段分布鲁棒线性规划可以等价于正规划,从而导致自然SDP近似。H.Xu等人(2018)研究了一个max–max公式,证明了在一定条件下,它也可以等价于一个coppositive程序。
我们的研究重点是基于矩的模糊集合,而不是基于距离的模糊集合。Bertsimas等人(2010)应用基于矩的模糊集,为给定第一和第二矩的两阶段极大极小分布鲁棒线性优化问题提出了一个基于SDP的模型。Natarajan等人(2011)提出了一个CPCMM来解决两阶段的分布式健壮框架。他们的模型侧重于实现最佳预期性能的分布。该模型证明,当决策者知道非负不确定参数的一阶和二阶矩时,混合0-1线性规划的最大值的最佳情况期望值等价于CPP。此后,CPCMM模型被应用于许多主题(见Gao et al.,2019;Kong et al.,2020;Yan等人,2018)。注意,重新表述为CPCMM并不能立即使这个问题变得容易处理,但它将问题的复杂性转移到理解完全正锥或其对偶锥(共面锥)的面结构上。我们请读者参考Berman和Shaked Monderer(2003),以了解有关这两个凸锥的更多信息。一种常见的方法是将完全正锥近似为具有非负项的半正定锥。因此,两阶段分布鲁棒优化问题可以简化为可处理的SDP。
我们从两个方面对这篇文献做出了贡献。首先,我们将CPCMM应用于挑选赢家问题中的投资组合优化问题,这有助于通过交叉矩自然地利用多样化效应。
其次,为了克服高维广义完全正锥导致的计算效率低下,我们用低维广义完全正锥将整个优化问题分解为更紧凑的形式,从而产生易于处理的混合0–1 SDP。

5 日常幻想运动
在本节中,我们使用来自https://fantasydata.com.我们使用2019年10月2日至2021年1月31日的数据作为训练集来估计我们模型的参数。然后,我们使用2021年3月1日至2021年3日10日的比赛作为测试集,以验证我们方法的有效性。具体竞赛信息见支持信息表EC.4
5.1 问题陈述和投入估算
在DraftKings,几乎所有的奖金都流向了表现最好的参赛者。在游戏中,每个参与者可以提交多个冰球阵容(候选解决方案),并且一个阵容的总幻想得分等于真实世界运动员的实际幻想得分之和。每个冰球阵容需要选择九名运动员:两名中锋、三名边锋、两名防守队员、一名守门员和一名全能运动员。注意,多用途运动员可以从任何一名滑冰运动员中选择。此外,每个冰球阵容中的所有入选运动员必须来自至少三支不同的球队,预算限制为50000美元。
虽然在游戏中提交尽可能多的参赛作品(阵容)是很自然的,但我们注意到参赛费和阵容数量之间存在权衡。因此,找到数量较少且具有竞争力的阵容是很有用的。这一点尤其重要,尤其是对于有最多多个阵容限制和高昂入场费的比赛。如图4所示,游戏可能会限制阵容的最大数量。左边的一个只允许四个条目,而右边的一个最多允许20个条目。在这种情况下,在合理的时间内生成具有高质量表现的适量阵容的能力变得至关重要。更多示例可在https://www.draftkings.com/.关于模型公式和参数估计部分,我们请读者参阅支持信息中的附录EC.6.2。
5.2 预处理技术
在实践中,由于每次比赛中通常有数百名潜在的运动员,因此使用顺序优化方法直接使用这组通用的运动员来构建阵容既耗时又不实用。如支持信息中的表EC.4所示,通用集合包括我们测试的10种情况下的123至474名运动员。为了克服这个问题,我们使用了一种简单的预处理技术来减少我们方法的候选运动员的数量;也就是说,我们只是根据他们的预测成绩来选择排名前n的运动员。我们没有按比例选择球员的原因是,不同比赛的通用集合的大小不同,如果我们在每场比赛中提交相同数量的阵容,这将导致计算时间的巨大差异。
在这里,我们描述了如何根据解决方案质量(即目标函数)和计算效率(即CPU时间)。换句话说,我们希望确定一个合适的n,这将使我们能够用最少的计算时间生成良好的解。为此,我们首先求解n∈{30,35,40,45,50,55}的10个场景,以构造m=5个队列的解。用m的其他选择进行的实验显示出类似的趋势。我们在YALMIP中使用“BNB”来解决混合的0–1 SDP。在YALMIP中,间隙被定义为UB−LB UB+LB,其中UB和LB表示分支定界算法中的上界和下界。我们将终止间隙设置为5%,以减少顺序优化算法每次迭代中的CPU时间。
图5a报告了在10个实例中获得5个队列的平均性能,即目标和CPU时间。目标值逐渐增加,直到n=45,之后向候选集合中添加更多玩家不再提高性能。这是由每次迭代中终止标准的5%差距引起的。
如图5b所示,在n=50,55的情况下,每次迭代中获得的最优性间隙大于在n=45或更低的情况下实现。因此,我们选择n=45用于稍后进行的计算实验。这有助于减少计算时间,而不会对解决方案质量产生不利影响。在实践中,如Hunter等人所述。(2017),守门员信息只能在比赛开始前30分钟左右提供,理想情况下,人们应该能够在该时间窗口内选择所有阵容。这种预处理技术有助于确保我们的方法能够在1800秒内生成足够的阵容。
关于10个实例的详细结果,我们请读者参阅支持信息中的附录EC.6.3。
5.3 与两个基准的比较
我们将我们的方法的性能与两个现有的基准进行了比较。第一种是Hunter方法(Hunter et al.,2016)(有关支持信息中的更多详细信息,请参见附录EC.3.3)。第二个是Jarvis Nederlof提出的遗传算法(参见https://levelup.gitconnected.com/dfs-lineup-optimizerwith-python-296e822a5309)。我们使用地面集合中的所有运动员来解决两个基准的解决方案。
在我们的方法中,我们选择了预测得分最高的45名运动员。
在每个场景中,我们将阵容m的大小从1到20不等。当计算样本外性能时,我们假设真实分布是多元正态分布,(𝜇, Γ)。请注意,这里将每个选定运动员的估计平均值设置为平均值𝜇 真实分布。
类似地,每个选定运动员的估计标准差和估计的相关矩阵一起形成真实分布的协方差矩阵Γ。生成五万个样本来计算表现最好的阵容的平均得分和获胜概率。
图6和图7分别报告了幻想得分比较的结果和获胜的改善可能性我们的方法在各种指标方面显著优于其他两个基准。具体来说,当m=20时,我们的方法在测试的所有10个场景中产生了三种方法中得分最高的解决方案。
有趣的是,幻想得分的提高实际上随着投资组合规模的增加而增加。这表明,随着m的增加,我们的顺序优化方法的优势变得更加显著。
为了确保我们的方法的卓越性能源于模型本身,而不是候选运动员集的选择,我们还将两个基准的基础集限制为与我们的相同的运动员集(即45名运动员)。图8绘制了三种方法使用20个阵容获得的幻想得分。我们的方法综合支配了这两个基准。请注意,Hunter方法在某些情况下无法获得20个阵容,因为其使解决方案组合多样化的方法。有关详细结果,我们请读者参阅支持信息中的附录EC.6.5。
为了显示我们模型的竞争力,我们还将m=20的方法与使用20多个阵容的其他两个基准进行了比较。也就是说,我们求解m∈{20,30,40,50,60,70,80,90,100}的两个基准。图9报告了10个实例的平均性能。就平均幻想得分而言,我们观察到,我们的20个阵容的方法可以胜过亨特的50个阵容,与GA的70个阵容不相上下。此外,我们的平均得分比亨特的20个阵容的方法高5.37分,只比亨特的m=100的方法低2.60分。
我们观察到,最初的阵容可以很容易地与其他阵容一起扩充,以在这个问题上提供卓越的性能。为此,我们开发了一种混合算法,将我们的顺序优化算法和遗传算法相结合。具体而言,我们使用顺序优化算法生成前20个解,并使用Jarvis Nederlof提出的GA添加其他解。通过这种方式,我们可以在合理的时间内获得许多解决方案。我们将这种混合方法与其他两个m∈{20,30,40,50,60,70,80,90,100}的基准进行了比较。图10报告了10个场景的平均性能。我们观察到,混合算法在综合方面优于其他两个基准——初始阵容很有趣对使用增量方法构建完整阵容的任何算法的性能的影响。我们的顺序优化算法在这方面特别有用。
事实上,使用GA构建的额外20个阵容,我们使用40个阵容的混合方法已经可以与使用100个阵容的两个基准测试一样好。
5.4 解决方案结构分析:多元化效应
我们使用两个赌注之间的余弦相似性概念来衡量多样性效应。这种方法被广泛应用于机器学习领域。形式上,如果候选集包含n名运动员,对于任意两个阵容i和i′,其相似性定义为,∑i′<i∑nj=1 xi′jxij。基于此,我们可以将组合中第i阵容的多样性定义为1−∑i′<i∑n j=1 xi′jxij 9(i−1),其中“9”表示每个阵容中选定的运动员总数。
图11显示了每个添加阵容的平均得分和多样性结果。值得注意的是,与两个基准相比,我们增加的每一个阵容都达到了(i)更高程度的多样性(与之前的阵容相比),但(ii)每个阵容的平均幻想得分都较小。这一结果表明,现有的基准以牺牲多样性为代价,更多地关注用于选择的阵容的边际得分,而我们的方法更侧重于利用多样化效应,以牺牲个人得分为代价。前者导致每个增加的阵容的平均幻想得分更高,但后者在挑选获胜者问题上有更好的样本外表现。换句话说,我们的方法通过更好地利用多元化效应来提高投资组合的绩效。
请注意,Hunter等人(2016)中的方法使用约束来处理多样化,以限制与之前选择的阵容的重叠量。对于当前阵容i(i≥2),以及从1到i−1的任何先前阵容,他们添加
(25)
他们通过调整来控制多元化效应的程度𝛾. 接下来,我们会有所不同𝛾 从游戏场景3中的2到8,来研究Hunter方法如何捕捉多样化效果。这证明了我们的方法的优势,其中多样化效应自然来自于模型设置。图12显示了我们的方法和具有不同重叠水平的Hunter方法。我们可以观察到,无论我们如何控制重叠级别,猎人方法都无法在相同阵容大小的情况下击败我们的方法。
6 结论
在本研究中,我们考察了在挑选赢家框架下的投资组合构建。受邪恶双胞胎策略在构建两个解决方案投资组合中的良好表现的激励,我们使用基于矩的两阶段分布鲁棒模型推导了一种利用多样化效应的通用方法。尽管这个基本框架可以作为混合的0–1 SDP来放松,但由于SDP的高维性,解决最优投资组合仍然是棘手的。为了解决这个问题,我们提供了一个具有低维SDP的紧凑的重新表述。我们使用这些模型在适当的设置下“恢复”了(部分)邪恶的双胞胎策略。为了提高我们方法的性能,我们设计了一种基于紧凑公式的顺序优化方法。使用真实数据对体育博彩池和日常幻想体育进行的大量数值实验表明,与现有基准相比,我们的方法具有优越性。日常幻想体育的计算结果表明,与其他启发式方法相比,我们的基于时刻的模型可以更好地利用多样化效应,从而产生更好的样本外性能。这意味着,在构建投资组合解决方案时增加多元化效应有助于降低不确定性的风险,从而在挑选赢家问题的框架下提高获胜的机会。
我们提出的方法不仅限于体育博彩池和日常幻想体育,而且可以应用于任何面临类似投资组合构建问题的行业,具有“高回报、低概率”的赢家通吃结构。我们的工作可以向几个方向扩展。一个方向是在挑选赢家框架下构建多个解决方案时考虑对手的行为(Haugh&Singal,2021)。这将为投资组合构建问题提供更多见解,并有助于构建更好的解决方案。此外,本研究中开发的技术可以为其他相关领域做出贡献,如产品线(Bertsimas&Mišic,´2017)和束设计(Li et al.,2022)。具体而言,基于低维混合0–1 SDP的顺序优化框架也可以应用于适当问题设置下的产品线或产品包的设计。我们将这些扩展留给未来的研究。

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;