多武装强盗测试 “产品人员-产品经理,产品设计师,UX设计人员,UX研究人员,业务分析师,开发人员,制造商和企业家 November 11 2013 真正 A / B测试,多武装强盗,多变量测试, 注意产品 介意产品有限公司 1078 产品管理 4.312

多武装强盗测试

通过 ON

多臂强盗测试多臂土匪测试 涉及统计问题的设置。最常用的示例是一组老虎机和一个赌徒,他们怀疑一台机器比其他机器支付更多或更多的钱。对于每个代币,他们需要决定使用哪个老虎机,以从他们的预算中获得最大的收益。

该设置最初应用于医疗制药领域。这是为了将固定预算分配给各种研究项目,这些研究项目一开始就显示出高度的不确定性,但是随着进展的进行,结果会更加清晰(或缺乏明确性)。

最近,此问题设置已应用于 A / BMVT测试 想要评估给定功能或活动的影响的产品经理和市场营销人员越来越感兴趣。

开发与探索

我们的赌徒没有 ’真的不知道从早期开始。他需要探索所有不同的选择,同时必须利用性能最佳的老虎机来最大化自己的利润。这就是探索与开发的权衡:

在探索阶段,赌徒尝试使用随机杠杆来研究哪种杠杆能带来最大的回报,但在某个时候,他还需要利用该知识来最大化自己的带回家的钱。有不同的策略可以解决此问题,尽管它们都不是完美的,但它们可以提供不错的结果(选择最佳老虎机的几率约为80-85%)。

这是解决问题的最简单方法的示例:

  • psi贪心法:在一定比例的试验中,选择迄今为止被证明是最好的手臂,并随机(以均等概率)选择另一个杠杆来进行试验。– normally smaller –比例。如果我们将探索比例定义为10%,则系统将在90%的时间内利用最佳分支,并在10%的时间内尝试使用随机杠杆。

简而言之,这意味着一旦我选择了一只手臂,然后在下一回合,我就有90%的机会再次利用该手臂,而又有10%的机会探索新的手臂。每次拉动手臂,其奖励都会重新计算。

这是一些更高级的其他方法:

  • 厄普西隆优先策略:纯勘探阶段之后是纯开采阶段。我们可以任意定义我们想拉杆多少次,以及一开始我们要进行多少次探索。假设赌徒有500个代币;他决定随机尝试前50个令牌的所有杠杆,然后对其余450个令牌使用最佳杠杆。
  • 减少Epsilon的策略:这类似于epsilon-greedy策略,但是epsilon随着时间的推移而减少。它从一开始就可以进行更多的探索,并随着实验的进行而将重点更多地放在开发上。
  • 乐观的初始值:贪心策略的问题之一是,它们的初始估算值存在偏差。通过鼓励进行初步探索,解决此问题的一种方法是将所有估计值都设置为高于我们实际期望的值,以使系统能够‘disappointed’, will explore more.
  • 汤普森采样:Google似乎将这种算法的变体用于 自己的内容实验。它’s based on 贝叶斯统计,并假设每个变体的效果如何,并且在进行实验时会挑战和更新这些假设。

对产品经理意味着什么?

每次我们测试新功能,目标网页或广告时,我们都会冒险,因为我们看到了获得奖励的潜在机会。多武装强盗方法使我们能够确保选择最佳的选项,同时将最少的流量发送到性能最低的选项。听起来不错!但是,还有其他一些要考虑的事项:

  • 移动基线:上述所有策略的一个假设是基准线没有’改变。实际上,这种假设是,武器的支出是固定的,其中一个可能高于其他。但是,在现实世界中,由于季节性,用户行为,随机性等原因,我们正在跟踪的指标可能会随时间变化。在这种情况下,似乎在‘good’阶段,与其他部门相比会产生偏差。
  • 给定变化的信心:由于所有这些策略都需要或多或少地任意分配流量,因此会将不同的流量分配给不同的版本。在上面的Epsilon贪婪示例中,被认为是赢家的那支武器往往会获得90%的点击量,而其余的武器则必须分担其余的10%,从而降低了这些武器的置信度。
  • 整个设置面向优化而非预测:多臂匪徒的设置旨在最大程度地利用有限的资源,而不是预测如果决定只用一只手而不是另一只手将来会发生什么。有一些旨在提供此类结果的策略(例如Thompson采样),但是它们很复杂,并且仍受先前观点的约束。

结论

I’d想明确说明我不是数据科学家,据我所知,这个主题仍然是研究的主题,但这是我从数百种使用多臂匪徒方法和更传统设置的测试中获得的主要知识:

  • 在时间或金钱等资源有限的战役中,最好使用多臂匪。那’这就是为什么在AdWords和其他出价管理工具中有意义的原因。
  • 多臂强盗设置有很多不同的实现方式。如果您正在考虑采用使用此设置的平台,请询问实现的详细信息。
  • 为了您的目的,了解勘探与开采之间的正确平衡非常重要。
  • 具有固定分配的经典测试设置可提供更可靠的结果,因为它们不会因移动基准而产生偏差(并提供了更容易的方法来预测测试持续时间)。但是,可能存在机会成本,即在测试期间无法提供最佳变体。

我希望消除有关此测试设置的一些疑问。如果您有任何疑问或想分享您的经验,请发表评论!

进一步阅读: