介绍
许多人都知道他们应该进行实验并测试产品,但是在开始时可能很难确定从哪里开始。因此,以下是我方便的实验指南,该指南是根据实验煤面上收到的疤痕制作的。
这篇文章将带您概览实验周期,以帮助您开始并将实验变成一个过程,这已成为产品管理的正常和自然的一部分。
实验周期包括以下步骤:
- 计划
- 实行
- 监控
- 法案
通过闭合循环,实验结果将反馈到a)实验计划,b)产品积压或c)开发优先级。在许多方面与 OODA循环 .

已进行实验以使您的产品更好。如果实验结果没有产生要运行的新实验或更改产品开发的作用,则说明您的过程或正在运行的实验出了点问题。请记住,知道不该做的事情也会使您的产品变得更好。
在本文中,我将从规划和设计实验开始,着手实施实验以及常用的工具和技术,然后着手进行运行和监控实验。最后,我们将着眼于实验结果的操作(重新开始循环)。
规划实验
不做任何计划就跳入进行实验是很诱人的。这种方法可以使用,但可能会使您更难从实验中完全受益,并且无法将实验作为一个过程来实施。
从一个问题开始
实验的一个很好的起点是提出一个问题,然后提出几个假设来回答这个问题。一旦有了这些假设,就可以设计证明或否定该假设的实验。
让我们考虑一个例子。转化率对公司非常重要,推动这一目标的提高是一个关键目标。所以问题变成了:
“为什么目标网页上的转化率不是30%?”
考虑到这个问题,让我们现在创建几个假设作为测试的起点:
- 号召性用语应为红色按钮
- 该消息不清楚注册的价值
- 该页面上有太多不同的号召性用语
不幸的是,这些假设并不是很好的书面假设。让我们对指定假设的方式进行一些严格的规定,以便我们完全了解发生了什么。构造假设陈述的传统方法是使用“ 如果 ”,“ 然后 ”方法,例如:
“ 如果 我给植物浇水 然后 这些植物将生长”
或结构略有不同
“ 如果 我不给植物浇水 然后 植物将不会生长”
因此,如果我们以if / 然后 格式重新陈述上述假设,则它们变为:
- 如果 号召性用语按钮为红色 然后 注册人数将会增加
- 如果 我们更改副本以说明注册的价值 然后 注册人数将会增加
- 如果 我们会删除页面上的所有号召性用语,但只有一个号召性用语 然后 注册人数将会增加
现在,假设说明了 自变量 (if之后的位)和 因变量 (之后的位)。这些假设可以通过“ 因为 ”子句确定了您认为因果关系存在的原因。例如:
- 如果 号召性用语按钮为红色 然后 注册人数将会增加 因为 红色按钮在页面上突出
- 如果 我们更改副本以说明注册的价值 然后 注册人数将会增加 因为 他们将了解他们获得的价值
- 如果 我们会删除页面上的所有号召性用语,但只有一个号召性用语 然后 注册人数将会增加 因为 他们不会被多个号召性用语分散注意力
一个好的假设是可以用一个 自变量 可以控制的 因变量 可以衡量的它清楚地说明了将要发生的变化以及变化的预期效果。
对此的实际测试是其他人可以阅读并向您解释要进行的更改以及更改的预期效果。如果他们做不到,那么您需要重新审查该假设。您希望能够将您的假设交给某个人,然后该人可以设计必要的实验来测试假设。
从假设到实验
设定好假设后,就需要创建一个实验来测试假设。实验将需要允许对 自变量 (if之后的位),并测量(如果有的话) 因变量 (之后的位)。
如果您已经很好地描述了假设,那么从假设中进行实验以验证该假设是显而易见的。例如,让我们为假设设计实验:
如果 号召性用语按钮为红色 然后 注册数量将增加
此假设的实验是一个模板,其中号召性用语按钮为红色,但这不是完整的实验。您无法确定 因变量 真正取决于改变 自变量 。 的 因变量 变化可能是由另一个引起的 自变量。为了确保产生有效的结果,您还需要通常称为控件的控件。
因此,实验正在对 自变量,测量 因变量 然后将结果与对照进行比较。
因此,对于我们的红色按钮假设示例,该实验包括在已存在的页面模板之间划分网站访问量( 控制 )和带有红色按钮的相同页面模板( 变体 ),测量注册的用户数,并比较从中注册的用户数 控制 和 变体 。要考虑到每个模板的访问量差异,您应该比较转换率(注册用户数除以唯一身份访问者数),而不是绝对注册数。

您不可能有无限的资源和时间来检验每个可能的假设。为了帮助确定要测试的假设的优先级,请根据您的研究和经验,重点关注因为子句最强的假设。
对假设的一种检验不会单独回答这个问题。您’由于实际答案可能并不明显,因此需要提出多个不同的假设。因此,需要计划要进行哪些实验,以及将要获得正面或负面结果的计划。您花在检查和定义问题(问题和假设)上的时间越多,您的实验过程就会越好,并且可以实现的价值就越大。
关于该问题的最终说明:关注与业务价值或KPI直接相关的问题。某些实验可能很容易执行,因为它们很容易执行,也很有趣,但是您对所要解决的问题的训练越多,就可以从实验周期中获得更大的价值。
融入公司
让公司的其他成员参与实验。这有助于公司的其他部门将精力集中在最终用户的行为或价值上。通过让整个公司参与试验过程,它可以使以数据为中心的决策全盘灌输,并有助于 HiPPO问题。根据实验结果更改开发优先级已成为公认的惯例。
让整个公司参与试验的另一个巨大好处是,它有助于克服对其工作进行测试的自我影响。通过测试来挑战您的工作通常对人们来说是对抗性的,并且会产生一些抵制或分解。但是,通过让人们创建假设并从一开始就计划进行实验,有助于改变人们对正在发生的事情及其背后价值的认识。
实施实验
在查看实验的实施方式时,请考虑不要将自己束缚在工程发布周期和资源配置中。这提供了必要的灵活性,可以按计划执行和监视产生最佳结果的时间表。实际上,您想限制与工程优先级和资源的耦合程度。
实施实验时,请在实验日志中记录实验的详细信息(名称,位置,要测试的内容,变体),开始日期和结束日期以及最终结果。这有几个目的:
- 它可以帮助您跟踪情况,
- 您具有测试运行,结果以及对结果采取的措施的历史记录
- 它充当公司其他部门的报告工具
最初开始录制时,可能看起来过分,但随着实验成为例行程序,正在进行的和历史性的实验数量将迅速增加,从而难以保持所有秩序。
实验如何进行?
测试A / B和Multivariate有两种基本类型。 A / B测试是将一种或多种变体与对照(通常是当前的实现方式)进行比较,以证明或否认该假设。多变量正在比较哪些变化组合证明或否定了假设。
A / B测试是一种用于测试假设1中红色按钮当前的号召性用语的测试。多变量测试是一种用于测试红色按钮和副本更改的哪种组合不支持或证明该假设的测试。多变量测试可以被认为是同时在同一页面上运行的多个A / B测试。
两者之间的选择取决于:
- 您的流量
- 可用于测试的时间
- 是优化还是寻找大飞跃
多变量需要更多的时间和流量才能产生统计上有效的结果,并且通常最好集中在围绕最大值进行优化。更简单的A / B测试更适合于找到更好的最大值,以及在交通和时间受限制的情况下。 A / B检验将比多元检验更快地达到统计上有效的结果。
设计变体
您的变体将由您的假设决定。假设越狭窄和具体,您围绕局部最大值进行优化的可能性就越大。
局部最大值问题
局部最大值的优化是一个问题,因为您永远不会产生很大的改进。取而代之的是,您需要付出很多努力才能获得一些小的改进。类推可能有助于更好地解释。考虑两个山丘,一个小一个,一个大的。您想爬山看平原。如果您将视线停留在地面上并且靠近小山丘,那就是您要爬的那座,无论走多大,都不会变得更高。但是,如果您向上看,则会看到大山丘,因此现在可以变得更高。
为避免出现局部最大值问题,请提供相差很大的变体。这可以扩展到变体的完全不同的布局,样式和设计。您正在尝试测试在问题空间中尽可能远的不同解决方案,以期看到更大的山丘。
进行较小的更改非常非常容易。说服HiPPO既安全又容易。但是,您会冒着在局部最大值上进行优化的真正风险。您可以提高1%或2%,但仅此而已。以示例网页为例,而不是测试不同的副本,而是测试完全不同的按钮,副本和样式的布局。这些应该是截然不同的布局。
现实生活中的例子

为了提高PeerIndex的转化率,我们进行了一系列实验。第一组实验着重于在页面上移动按钮。这几乎没有提高转化率。

接下来,我们在截然不同的布局上进行了实验,从而将转化率提高了200%。实验显示了目标网页的原始假设,我们需要对PeerIndex进行很多解释才能使人们转换,这是错误的。通过删除大量信息并保持页面简单,我们决定更轻松地进行注册。您可以在图3中看到起始登录页面,并在图4中看到实验的最终结果。
实用性
建立与购买
长期存在的问题:建造还是购买?您当然可以让工程团队创建A / B测试框架,也可以使用一种可用的SaaS工具。作为产品经理,我倾向于购买方,因为它可以减少工程团队在前期和后期的负担,因为他们不必维护内部系统。此外,我可以在工程发布时间表之外运行测试。
即使使用SaaS工具,您也需要获得一些工程支持以集成该工具,还需要设置您的应用以允许该工具进行控制。所需的集成和工程工作量取决于所使用的服务,但通常涉及在网站或应用程序的标题中包含一个JS文件。一些工具(例如Google网站优化工具–现在是GA的一部分)要求您标记正在实验的模板的各个部分,而其他则允许您在浏览器中使用WYSIWYG编辑器。
如果您要测试可能具有不同动态数据的完全不同的模板,则需要创建模板并在页面加载时选择模板。在内部,您可以在控制器内使用模板选择机制。使用SaaS工具,我发现最有效的方法是使用拆分URL功能,并让应用程序根据URL参数选择适当的模板。拆分URL通过将流量定向到两个或多个不同的URL来工作。区别可能是网址参数(例如?reg_flow = 1),也可能是完全不同的网址(例如 http://www.example.com/page_1 与 http://www.example.com/page_2).
网址
网址1 = http://www.example.com/index?test=1
网址2 = http://www.example.com/index?test=2
控制者
…..
IF URL_PARAMETER('index')== 1然后
//做点什么
其他
//做其他事情
万一
可以使用相同的方法对不同的注册流程和不同类型的功能的行为进行实验。实施拆分URL测试确实需要工程支持,因此最好计划要计划运行的测试,以便可以安排修改以进行工程交付。
使用拆分URL测试的挑战是能够激发正确的目标。如果目标是综合浏览量,那就很简单了。当目标是行动时,例如,成功完成一条推文,发送电子邮件或提交表格。一些工具可以立即捕获这些动作,或者提供一种“自定义”目标方法,您可以将其设置为在成功完成目标时触发。
选择SaaS工具
有多种可用的SaaS工具,其中3个值得注意:
- Google网站优化工具(现已集成到Google Analytics(分析)中)
- Wingify的VisualWebsiteOptimizer
- 优化。
我用了全部三个,全部三个都完成了工作。这是每个方面的一些快速注释。
Google网站优化工具
我发现Google网站优化工具不足以支持我正在进行的实验类型,并且它需要大量手动标记模板才能运行每个单独的测试,并且无法用于测试功能。
优化地
优化地 包括一个WYSIWYG编辑器(对大型网页有消化不良)。不幸的是,我发现围绕实验结果,编辑器和仪表板的导航令人困惑,从而导致大量的实验重做,并且进行了很多思考,试图找出我所关注的服务的特定方面。
视觉网站优化器
我最终使用视觉网站优化器作为我进行实验的主要工具,因为它为我提供了支持我正在进行的实验的工具,并且实验创建过程非常简单,并且UI以清晰易懂的方式呈现了结果。
测试好
在尝试时很容易尝试捷径。不幸的是,如果您粗心大意,快捷键很容易使结果无效,因此很难根据所获得的任何结果得出结论。确保遵循科学方法。
一种常见的快捷方式是不断更改控件。为了避免观察误差的实验,对照在整个实验中需要保持不变。
另一个主要问题是瞬时流量,例如来自PR的流量。 PR(例如Slashdot上的功能)可驱动大量的临时流量,这些流量可能是目标流量,也可能不是目标流量。因此,您的实验将被瞬态流量而不是目标流量的行为所淹没,从而使您需要优化瞬态流量,这种瞬态流量一旦出现就会迅速消失。在处理瞬时流量时,最好忽略它发生的时间段,而只使用它任一侧的结果。
细分非常重要
学会热切细分,因为细分使您可以了解和优化不同的用户。在错误的市场上获得30%的转化率毫无意义,这掩盖了您的事实’您在目标市场中的转化率只有5%。
例如,细分可以提供什么’ve对基于原产国的细分转化进行了测试。这表明,我们目标市场的转化率低于总体转化率,因为其他市场的转化率要高得多,从而掩盖了较低的转化率。我们现在正在计划专门旨在使目标市场转化率更高的测试。如果没有分割’t been done, we’d从不知道这一点。
细分可以实现多种功能,例如:
- 浏览器
- 国家
- URL参数(utm代码)
- 一天中的时间
- 星期几
- 访客类型(新访客与回访访客)
- 搜索关键词
- 移动设备
- 操作系统
运行和监控实验
您已经制定了测试计划,现在已经开始执行测试,可以开始进行实验了。
实验需要时间
即使您的点击量很大,运行测试也要花费一些时间。主要原因是要实现统计有效性。为了使测试在统计上有效,您需要运行足够长的时间,以便有足够的人参与实验。多少钱够了?无需深入研究数学知识,您就可以根据流量水平和测试的复杂性来了解需要运行多长时间的实验 计算器 由VisualWebsiteOptimizer提供。
交通行为也影响结果的统计有效性。即使您有足够的流量在一天之内获得有效结果,那一天的流量是否与其他几天相同?它受到市场推广或公关活动的影响吗?选择运行测试的时间时,必须考虑这些因素。我宁愿进行至少一周的测试,以便在一周的不同天和一天中的不同时间,对网站带来的不同流量进行实验。 PR或市场推广可能要求测试运行更长的时间,以使流量有时间恢复正常。
如果流量较低,则必须运行更长的实验时间,以确保获得有效的结果。这里有一些 好提示 在低流量下运行实验。
报告中
报告仅用于一种目的;帮助您确定下一步的行动方案,即更多的实验或产品/开发优先级的变化。如果没有采取任何措施,那么该报告和实验就被浪费了。报告只需要得出结论并采取行动就足够好。
在报告阶段,您可以问“为什么”?为什么我得到x而不是y?这些问题将导致新的实验(他们记住了一个问题),这些实验将继续实验的周期和过程。它不应该停止一个或一组实验。这也是检查异常结果的地方。异常结果既不能证明也不能反驳该假设,而与所测试的结果垂直,那么异常的结果应集中在回答原因上。
这方面的一个例子是我们在PeerIndex进行的测试,该测试按国家对目标网页进行了细分。假设是不同地点之间存在差异。异常结果是一个国家的结果比其他国家大50%。该国与其他国家之间没有这种差异的明显原因。实际上,它甚至不是目标市场。
负面结果的重要性
测试的关键结果是学习。积极或消极的结果无关紧要,实质是您从测试中学到了什么。负面结果可能比正面结果更为重要。负面结果是告诉您您对用户的基本理解是错误的。结果是您可以返回到绘图板,并使用测试来发现用户想要的内容。
闭环
您已经设计了实验,实施了实验,运行了实验,现在将结果保存在报告中。下一步是问自己两个问题:
- 这些结果对发展优先次序意味着什么?和
- 为什么得到这些结果?
第一个问题使您可以查看开发积压,并根据从实验中获得的验证结果来调整优先级。这样,就可以使实验中发现的关键指标的改进永久化,并尽快部署。例如,如果您的实验将转化率提高了100%,那么您希望尽快实现这一目标。
通过问“为什么我得到这些结果?”这个问题(或者相反,“为什么我没有得到我期望的结果?”)您提出了可以回答问题的假设,然后您可以设计实验进行测试。例如,假设您进行了一项实验,表明来自不同国家/地区的访问者的转化率不同,而目标市场国家/地区的转化率较低。然后的问题是“为什么我的目标市场转化率更低?”您要针对这些假设进行检验。
根据结果采取的措施(产品优先级更改,新实验)应记录在实验日志中。这提供了一种跟踪实验和最终结果的方法。它还提供了方便的跟踪记录,以跟踪您如何进行任何特定的实验。
一个实验不可能回答任何问题。取而代之的是,您可能会通过重复进行实验来迭代答案。这个持续的实验周期是您如何更快速地开发产品以满足KPI和目标的方法。
概要
最终,实验的目的是实现业务或产品目标。记住这一点,你’我会做得很好。但是,您会忽视短期优化的真正风险,即无法建立强大的产品或业务。它不是为了测试而运行测试,也不是在框架清单中打勾。所有实验都必须以达到既定目标为基础。
您需要能够问自己“这个实验如何与我们正在努力实现的目标保持一致?”并且应该有明确的答案,例如“我们的目标是增加收入。这需要更多的用户付费。我们想知道主页上的CTA是否可以更有效地吸引用户注册。测试之一是强调CTA按钮。该测试是其中之一–在这里我们评估了按钮的不同颜色。”
实验将科学过程带入了产品开发过程,旨在更快地实现目标。即使您只开始在一个区域进行实验(例如目标网页转换),您也将同时对产品的许多不同部分进行实验。记住该过程并将每个实验绑定到一个目标中,这样就更容易跟踪正在进行的事情并确保您的实验使您的产品朝着目标发展。
您可以在《粉碎杂志》中找到其他有趣的细节和实验提示 文章 .