- 《架构师》2017年6月
- InfoQ中文站
- 2020-06-26 06:04:48
卷首语
If only HP knew what HP knows
AI无疑是2017年最火的热词之一。
2015年ILSVR比赛里,微软用30多层的神经网络将图像分类的错误率降至4.94%,首次击败人类(5.1%),从某种程度上证明了机器不仅是“决策支持系统”,它们本身就可以提供更可靠的答案。2017年Kaggle的肺癌检测进一步展示了人类经验(医生)和软件(开发者)之间崭新的合作方式:两者分别通过历史记录和模型,将各自的修为注入机器大脑,用多种数据加快其进化,让一个集人类专家多年智慧的绝世高手在数日内诞生。这些成功,将人们对AI和数据的关注提升到前所未有的高度。
惠普的一位前CEO曾说:“If only HP knew what HP knows, it would be three times more profitable" (如果惠普真的掌握它实际拥有的信息,盈利将比现在高三倍)。AI正在带来这样的可能性。今天它还只能做X->Y的映射,在不远的未来,也许真的能被快速训练成集万众之长,晓天文地理,服务于普罗众生,能传续万代的超级大脑,而且绝对不会出现“不给冰淇淋就不上补习班”的抵触情绪。
人类早已习惯了被自己的创新所取代:蒸汽机取代了拉车夫,机械取代了手工工人,互联网取代了不少唱片公司、零售、纸媒。当BOSS“资本”每次面对这些机遇时,它的选择自始至终毫无悬念。客观上也解放着人类:多少人愿意回到这些技术革命之前的时代呢?
回到If-HP-Knew-What-HP-Knows,我们仍然面临着同样的课题。数据仍然没有被充分利用,而且数据湖面临变成数据沼泽的危险。数据工程师们分属不同项目组,服务于不同部门,做着类似的事:数据加载、清洗、映射、打标签、聚合和计算出新的数据集,再用于各种推荐、挖掘或AI。湖越来越满,集群越来越忙。而数据用户们不知道有哪些可靠的数据,对陌生的不敢用,只好让自己的工程师加工,最终形成越来越多的数据孤岛。
因此,在利用AI的同时,通过数据治理,让更多用户更全面地利用数据,也是数据工作重点之一。比如梳理所有数据用户的需求,共同定义数据标准和CDE,将不同等级的数据商品化,供所有用户超市般地搜索、选用和分享等等。
AI大牛Andrew Ng做过一个比喻:如果机器学习是一艘火箭,那么神经网络是引擎,数据是燃料,缺一不可。所以,在追AI的同时,记得先搞定数据。