
如果像科幻作家阿瑟-克拉克(Arthur C. Clarke)提出的那样,"任何足够先进的技术都与魔法无异",那么有时感觉数据科学被视为从帽子里拔出的兔子。当然,这种叙述是被误导的。这是一种我称之为 "数据魔法 "的看法,人们相信数据可以被注入 "数据科学机器 "的一端,而完美的小工具(每个人问题的解决方案)会在另一端出现。
在相当大的程度上,这是因为绝大多数人都不了解数据科学的工作原理,当你进入更高级的领域,如深度学习,甚至许多数据科学家都会承认他们不了解许多复杂的层次。但是,如果你是一个数据科学家,你(大部分)知道的足够多,可以知道你什么时候超出了你的深度。然而,在数据科学界之外,情况并非总是如此。这也是可以理解的。
在某种程度上,这是我们自己的错。这是一个艰难的俱乐部;历史上,"外人 "很难进入,更不用说理解了。数据科学的语言一直被藏在胸前。正如罗马天主教会选择教会拉丁语作为核心交流语言来控制信息传递,特别是在中世纪和早期现代时期,我们数据科学家可以被指控采取类似的行动--尽管显然规模不一样,也没有对整个人口产生这样的直接影响。但是,正如16世纪的宗教改革导致了语言的解禁,使各种基督教会的信条更容易被大众接受一样,数据科学现在必须进一步扩展其白话。
一种共享的语言将使我们不再相信数据科学家有解决任何问题的神秘能力,通过人工智能环境运行数据来产生预期的结果,就像施了魔法一样。它将帮助人们理解,数据科学并不是一种神奇的灵丹妙药。
事实上,如果你真的想要先进的数据科学,最糟糕的事情之一就是指派一个数据科学家来解决孤立的或临时的问题,因为这将使数据科学保持在密室中,从而使沟通变得孤立。
相反,推广数据科学的最佳方式是暴露企业级的问题,了解如果做得好,数据科学是一项团队运动。拥有致力于产品或客户的多学科团队可以产生卓越的业务成果,并发展跨职能的理解。包括一名商业助理、一名产品经理、一名工程师、一名数据科学家和来自其他关键职能组织的代表在内的团队应该被锁在一个不受干扰的房间里,进行专注于最大需求和机会的思想交流。这就是真正的奇迹发生的地方。
然而,在这个旅程中的旅行者应该认识到警告信号。如果在与客户或其他第三方合作的过程中,你开始寻找绝对可以向所有人解释的解决方案,请暂停一下。就像魔术师不会把他们的表演限制在初级的技巧上一样,观众也明白,数据科学家不应该默认为容易解释的解决方案。故意淡化这个过程可能会产生附带的影响,为问题提供一个不太理想的解决方案。这是一种平衡。
这种平衡依赖于公司对其数据科学家能力的信任。相信数据科学家会尽可能地分享我们的语言,但当事情变得过于技术化时,不会稀释解决方案,而且我们会始终保持对我们学科的忠诚。
这篇文章最初发表在 媒介.