和鲸科技范向伟：聚焦“数据科学协同平台”这个企业服务新品类_互联网资讯

2019年11月，我们拿到了晨兴资本的A轮投资。这意味着，作为国内唯一以“数据科学协同平台”作为自身定位的厂商，和鲸科技用了四年时间，等来了市场爆发期，等来了头部投资机构的认可。

2019，注定是一个特殊的年份。这一年，我们从“Kesci科赛”正式升级到了“Heywhale和鲸"，进一步明确了“数据科学协同平台”的定位，剔除了非核心业务。也恰是这一年，我们能够很明显地感觉到，“数据科学平台”这个企业服务的新品类，开始获得越来越多的关注。

相比常见的企业管理软件、专业工具软件，如CRM、HCM、OA等，数据科学平台有着很高的认知门槛与使用门槛，过去只有专业的科研人员与数据分析师，才是这类软件的目标使用人群。

在中国，专业的数据科学平台厂商仍不多见，加上BATH四大云厂商旗下的产品线，不到10家。而在北美的企业服务市场中，2019年，大规模的并购——Tableau，表现好的二级市场公司之一——Alteryx，大金额的一级市场融资金额之——Databricks，都出现在了这个细分市场中。

市场爆发的背后，是云计算、数据中台、开源软件三个结构性的技术趋势，以及数字化转型的管理趋势，在“数据科学平台”这个品类发生了汇合。一时间，几乎所有的主流企业、政府部门、科研机构，都开始搭建数据分析与数据科学职能，采购数据科学平台的产品与技术服务。

对于大部分组织而言，真正的困难不是没有数据，而是数据太多、太乱。有数据，但没有洞察，谈不上实际业务价值。数据科学平台的定位，就是构建从“有数据”跨越到“有智能”的桥梁，将数据加工成模型、图表、报表、应用程序等，在辅助决策与自动决策的应用场景中真正发挥作用。

数据科学平台，作为用云量高的场景之一，也成为了巨头角力的战场。北美的四大云厂商，AWS、 Azure、 Google Cloud与IBM，以及中国的三大云厂商，阿里云、华为云和腾讯云，都进行了数据科学平台产品布局，以期打通“大算力+大数据=大价值”的公式。明年，甚至今后的五到十年，基本上都会围绕着这个角度展开争夺。

和鲸要做的是以人为中心的“数据科学平台”

对于数据价值的管理与利用，目前有两种主流思路，一种是以数据为中心，聚焦于数据治理和数据仓库；一种是以场景为中心，聚焦于数据中台和算法设计。而和鲸科技探索的是第三条道路，也是一条少有人走的路：以人为中心，以团队协同为中心。

和鲸科技的公司使命是“Connect People with Data”，这里的People，既包括了数据工程师、数据分析师、数据科学家这样的专业数据人才，更有决策者、建议者、执行者这样使用数据的业务人才。

从数据到智能，再到价值的打通，不存在一劳永逸的算法或模式，这个过程需要专业的数据人才与业务人才的高频互动、高效协同，通过数据洞察的成果、数据模型的打磨，最终才能构建起数据智能的飞轮。

和鲸科技相信，数据智能的公式应该是：（数据+算力）×（人才+协同）= 价值。

创业至今已经四年，我们一直聚焦于一个问题：如何实现数据人才与业务人才之间的高效协同。

通过调研，我们发现绝大多数专业数据分析师和数据科学家，长期以来的工作和协同效率都比较低下。而工具链条的打通，可以实现数据团队50%以上的效率提升。

因为数据处理的工具链条上，有着数百种数据建模算法，几十种数据格式、数据库协议，十几种常用统计软件，语言不统一、环境不统一、数据不统一，这让数据人才的工作中存在着大量的低水平重复劳动。

要打通繁杂的工具链条，需要找到链条上的大公约数，基于用户最多、体验好、功能强的开源软件，包括TensorFlow、ggplot2、scikit-learn、Jupyter等等，用云原生的技术范式，与消费互联网的用户体验，实现工具链条的统一与融合，实现对传统的统计分析软件（如MATLAB、SAS）的替代和升级。

另一方面，数据工作者的所有工作成果，都是为了服务于业务问题，否则就是空中楼阁。对于数据分析、数据建模的过程，业务人员的参与度仍然很低，这极大限制了数据资源产生的业务价值。

和鲸赋能业务人才的方式，是打通协作链条，让业务人才能够看到、参与数据工作的全流程、全生命周期。在数据加工的过程中，工作成果在不同阶段如何流转、分享、交互、整合，从一个黑箱，变成了一个透明、有序的流水线，让企业的每一个人参与到数据分析、数据决策、数据建模工作中，让数据的价值，从做加法变成做乘法。

历时三年多的产品迭代，我们的核心产品K-Lab，具备了出色的用户体验和产品口碑，赢得了包括了清华、南开、同济、协和医学院、中国电信、中国银联、中电科等在内的，国内最优秀的一批机构客户的信任。

举一个刚刚结束的例子，以方便我们从实际场景来理解“数据科学协同平台”的价值。数据科学的发展，使得医疗科研在研究方法、运作方式、传播交流等方面发生了深刻变革，能够熟练掌握大数据技术的医生，其科研成果也普遍有着更高的行业影响力。自2016年起，解放军总医院和MIT每年都会联合举办一次Datathon活动，致力于探索开放式科研和跨学科合作模式，推动医疗数据的实践应用落地。

Datathon的形式，通常是一种短期、高强度的小组竞赛，参赛者包括临床专家、数据科学家、统计学家、工程师和计算生物学家等知识背景和技术不同但互补的专业人士。这样一个参与者来自全球的“医-理-工”多学科专家的大数据创新活动，就遇到了上述数据人才与业务人才之间的协同问题。

这次的“2019PLAGH-MIT医疗大数据Datathon”，和鲸是技术支持方。Datathon的数据实操环节和活动全程，都是在我们的“数据科学协同平台”K-Lab所提供的AWS云计算环境中进行，不需要基站等大型实体设备，任意电脑只需上网打开浏览器即可使用，选手无需加载即可直接访问K-Lab中已经配置好的数据库，可以支持在场的几百名选手同时在线登陆平台，并进行流畅的在线数据分析。

由临床医师、算法工程师、医疗大数据工程师组成的跨领域团队，通过datathon这样一个物理意义上的平台和K-Lab这样一个虚拟平台，进行紧密高效地协作，合力解决临床医生面临的众多问题和未满足的医疗需求。这在以前，是很难想象的。

数据科学的发展，使得医疗科研在研究方法、运作方式、传播交流等方面发生了深刻变革，能够熟练掌握大数据技术的医生，其科研成果也普遍有着更高的行业影响力。中国目前针对医疗领域的大数据教学，还处于起步阶段，Datathon这种能够促进跨学科人士交流、并提供完备的基础设施和数据素材进行开放式科研协作的活动，显得更加难能可贵。

随着数据的增加，值得科研人员探索的问题也在变多、变难，Datathon的开放科研模式，以数据为基础与协作为桥梁，建立起了多学科之间的深入合作，为科研工作的形态打开了全新的可能。Datathon + K-Lab的模式，值得在众多领域进行推广和复制，这也是和鲸在2020年会着重关注的。

未来，与具潜力的机构与人才一起成长

数据的重要性已经成为了共识，但最佳实践还缺少积累，基础设施与人才队伍仍在建设初期，大部分行业和企业仍然难以开启“更多数据”、“更多智能”的飞轮效应。

虽然每个行业和场景，都有着数据化升级的广阔前景，但是落地成本和可复制性仍存在着很大的差异。和鲸科技在与众多行业客户的合作中发现，能否开启数据智能的转型，大的瓶颈是行业的信息化水平，以及优秀人才的储备。

多年的行业实践，让我们看到，数据智能的变革是一个很艰巨的挑战，东拼西凑、投机取巧是无法取得成功的，只有客户自己的数据分析与数据科学团队能够成长起来，具备可视化图表、数据分析报告、模型开发的基础能力，一个组织才能够真正开启数据化升级的历程，创造出前所未有的业务价值。

作为一家通过产品赋能用户的公司，我们选择和具成长潜力的机构客户与数据人才站在一起，聚焦在大学、科研机构、综合性教学医院这些人才成长性高、协作密度高、协同需求高的领域。通过协同平台与开放社区的结合，和鲸伴随客户实现人才积累、算法积累、场景渗透的复合发展，并面向行业形成标杆效应，让行业客户看到数据智能落地的具体路径与真实过程。

机构与企业，都已经开始着手储备数据、利用数据、建设和采购自己的数据科学平台，这是已经出现的大趋势，那么数据科学协同平台的天花板究竟会在哪里？

对于这个问题，我们也有着长期的判断。美国的数据科学平台的市场已经证明，这个品类可以出现多家百亿美金的企业。在云原生和开源软件的技术趋势之下，软件分发成本会持续下降、产品迭代速度会持续加快，将全球化的开源软件、智能算法创新在中国落地，同时把中国市场特有的产品能力、工程能力与运营能力在全球市场进行投放，将会是下一个十年属于中国的双重红利。