2.5.3 数据表达的局限_大话机器智能：一书看透AI的底层运行逻辑-QQ阅读男生武侠网

书名：大话机器智能：一书看透AI的底层运行逻辑
作者名：徐晟
本章字数：1042字
更新时间：2021-12-14 15:00:54

2.5.3　数据表达的局限

我们已经看到，数据是会“撒谎”的。数据本身存在表达局限性。这个世界是多维的，数据只是其中的一维。当我们把现实世界的某件事情或某个状态转变成数据，就已经剔除了很多信息。因为数据只反映出事情的一个侧面，所以从数据中得到的结论也只能代表一个方面。比如要讨论人工智能时代下的就业问题，正方会说，出现了越来越多新的岗位和职业。反方则说，越来越多的人因为被机器替代而失去工作。双方给出的数据都是准确的，但都只能反映出人工智能时代就业问题的某一个方面。

概率就是一种典型的、存在局限的表达。100%肯定的事情，与可能性是99%的事，本质上有巨大的差异。我们经常会在论文和科学文献中看到用概率来解释某种现象的情况，比如天气预报中的降水概率，或者医学研究中的存活率、治愈率等。假设经过数据统计，某种药服用后对疾病的治愈率是99%，并不代表你服用它就一定能被治愈。即使失败的概率很低，只要不是零，失败仍有可能发生。数据反映的是99%的成功可能性，但无法反映出1%的失败风险。小概率事件必须引起重视，因为概率小不代表背后的风险小。

虽然数据是决策的依据，但决策本身是一件复杂的事。现实生活中，把解决方案量化会受到许多因素的影响，有时依赖很强的主观因素。比如买手机，有人关心性价比，有人看重拍照功能，有人关注游戏性能，还有人喜欢良好的交互体验。即使我们拥有了手机各项参数的数据，挑选哪部手机仍然是复杂问题。由于每个人的权衡标准不同，需求也不同，因此到底如何选择取决于购买者的主观意愿和个人偏好。这种偏好因人而异，没有高低对错之分。

决策不能只基于数学理论，还必须用实践来检验。想象一下这样的游戏：抛硬币猜正反，如果正面朝上，押注多少就返还3倍金额的钱；如果反面朝上，就要立即没收全部押金。这个游戏有一个要求，每次必须押注身上所有的钱。我们该怎么玩这个游戏呢？

仅仅通过数学计算，我们每次押注后的预期收入都是正的。比如你第一次押注100元，有50%的概率会收获300元，还有50%的概率得到0元，因此你的预期收入是150元（100×3×0.5+0×0.5=150）。同样的道理，如果第二局再押注（此时你要押注的是全部金额300元），预期收入就是450元（300×3×0.5+0×0.5=450）。从理论上看，你没有理由不去赌一把！

但这只是理论值，如果你一直赌下去，则迟早会一无所有。就是说，理论值并不一定是最佳的实践策略。从数学的角度，我们有把握将概率和期望计算得准确无误，但这种数据表达本身是有局限性和不确定性的，一旦将概率结果直接用于决策，就一定要考虑它的风险和代价，否则可能引发灾难性的后果。