你很兴奋,你把梦想变成了产品。现在,您坐下来观看新用户的涌入。他们一个接一个地开始使用你的产品。您会在数据库中看到更多的用户; 也许您会看到下订单。太好了! 现在下一步是什么?您可以做些什么来改善用户体验?也许那个按钮真的应该是蓝色的?真的需要一个介绍视频吗?如果加载屏幕对印度用户来说花费的时间太长怎么办?这些问题的答案以及更多的答案可以从数据中得出。问题是,你需要知道收集什么数据以及如何收集。更重要的是,你需要知道如何看待数据,以及如何用它来推理。在这样做的时候,记住一件事是至关重要的: 唯一比没有数据更糟糕的是从不好的数据中得出不好的结论。
七年前,我坐在东京的一个研究实验室里,研究如何改善日本各地保安人员的分配。从那一刻到今天,我有幸处理各种问题并在不同公司之间建立数据科学团队。我已经看到并从各种数据陷阱中学到了东西,并希望在这里分享一些最有趣和最有影响力的陷阱。
人类是习惯和偏见的生物。例如,我们通常选择适合/确认我们的先入为主的数据 (确认偏差),选择可能不代表用户群的数据 (选择偏差),或者关注用户/产品最明显的属性,而忽略其他任何实际变化原因 (显着偏差)。其中一些偏见可能会对评估绩效产生巨大影响。
这里最快的补救办法是退后一步,看看你正在考虑进行分析的人群是否能代表你所针对的总体人群。如果没有代表用户的任何子群体,或者他们在总体群体中的比例与测试中观察到的不同,那么是时候重新考虑如何对用户进行测试采样了。
对全局有一个清晰的看法总是很重要的,但是根据手头的问题,它也可能会产生误导。
考虑一下我们正在尝试针对新用户转换进行优化的情况,并且我们有一个同时在iOS和Android上运行的应用程序。总的来说,我们可能会看到它有20,000个用户,其中10,000转换和10,000丢失。然后,我们更深入地研究每个inpidual平台。我们可能会看到,在Android上,我们做得非常好,400转换会丢失100用户,而在iOS上,基本上甚至是转换和用户丢失。但是,如果我们只看整体情况,我们将失去一个事实,即我们在Android上所做的一切都在工作。当观察独立群体与所有这些群体的组合时,具有看似明显的总体趋势的这种影响消失或逆转,被称为 “辛普森悖论”,它比人们预期的更频繁地出现。
通常情况下,查看用户行为的变化,并假设您最近所做的更改是负责任的。但是您怎么知道这不是基于运气?这种具有统计意义的概念很容易导致做出错误的决定,因为观察到的变化可能纯粹是基于偶然的。因此,它们可能不仅无效,而且具有与最初期望的完全相反的效果。
毕竟,你不会根据一个用户来做决定,但是10个、100个甚至1000个用户呢?有神奇的数字吗?事实证明,没有,这确实是一个棘手的问题。这实际上取决于您要跟踪和比较的内容。如果您要长期跟踪用户,则可以与较小的用户一起工作。或者,如果这是一个经常发生的事件,那么您也可以与一小部分用户一起工作。
当为您的产品找到正确的方向时,数据可以成为您最大的盟友和最通用的工具。然而,就像好的数据可能具有巨大的价值一样,坏的数据也可能非常有害。当你面临做出数据驱动的决策时,只问自己一个问题: 我是在看正确的数据类型,代表正确的用户群体,我是否有正确的数量来查看重要性?将其用作路标有望使您获得正确的结果。