2019年11月,我们拿到了晨兴资本的A轮投资。这意味着,作为国内唯一以“数据科学协同平台”作为自身定位的厂商,和鲸科技用了四年时间,等来了市场爆发期,等来了头部投资机构的认可。
2019,注定是一个特殊的年份。这一年,我们从“Kesci科赛”正式升级到了“Heywhale和鲸",进一步明确了“数据科学协同平台”的定位,剔除了非核心业务。也恰是这一年,我们能够很明显地感觉到,“数据科学平台”这个企业服务的新品类,开始获得越来越多的关注。
相比常见的企业管理软件、专业工具软件,如CRM、HCM、OA等,数据科学平台有着很高的认知门槛与使用门槛,过去只有专业的科研人员与数据分析师,才是这类软件的目标使用人群。
在中国,专业的数据科学平台厂商仍不多见,加上BATH四大云厂商旗下的产品线,不到10家。而在北美的企业服务市场中,2019年,大规模的并购——Tableau,表现好的二级市场公司之一——Alteryx,大金额的一级市场融资金额之——Databricks,都出现在了这个细分市场中。
市场爆发的背后,是云计算、数据中台、开源软件三个结构性的技术趋势,以及数字化转型的管理趋势,在“数据科学平台”这个品类发生了汇合。一时间,几乎所有的主流企业、政府部门、科研机构,都开始搭建数据分析与数据科学职能,采购数据科学平台的产品与技术服务。
对于大部分组织而言,真正的困难不是没有数据,而是数据太多、太乱。有数据,但没有洞察,谈不上实际业务价值。数据科学平台的定位,就是构建从“有数据”跨越到“有智能”的桥梁,将数据加工成模型、图表、报表、应用程序等,在辅助决策与自动决策的应用场景中真正发挥作用。
数据科学平台,作为用云量高的场景之一,也成为了巨头角力的战场。北美的四大云厂商,AWS、 Azure、 Google Cloud与IBM,以及中国的三大云厂商,阿里云、华为云和腾讯云,都进行了数据科学平台产品布局,以期打通“大算力+大数据=大价值”的公式。明年,甚至今后的五到十年,基本上都会围绕着这个角度展开争夺。
和鲸要做的是以人为中心的“数据科学平台”
对于数据价值的管理与利用,目前有两种主流思路,一种是以数据为中心,聚焦于数据治理和数据仓库;一种是以场景为中心,聚焦于数据中台和算法设计。而和鲸科技探索的是第三条道路,也是一条少有人走的路:以人为中心,以团队协同为中心。
和鲸科技的公司使命是“Connect People with Data”,这里的People,既包括了数据工程师、数据分析师、数据科学家这样的专业数据人才,更有决策者、建议者、执行者这样使用数据的业务人才。
从数据到智能,再到价值的打通,不存在一劳永逸的算法或模式,这个过程需要专业的数据人才与业务人才的高频互动、高效协同,通过数据洞察的成果、数据模型的打磨,最终才能构建起数据智能的飞轮。
和鲸科技相信,数据智能的公式应该是:(数据+算力)×(人才+协同)= 价值。
创业至今已经四年,我们一直聚焦于一个问题:如何实现数据人才与业务人才之间的高效协同。
通过调研,我们发现绝大多数专业数据分析师和数据科学家,长期以来的工作和协同效率都比较低下。而工具链条的打通,可以实现数据团队50%以上的效率提升。
因为数据处理的工具链条上,有着数百种数据建模算法,几十种数据格式、数据库协议,十几种常用统计软件,语言不统一、环境不统一、数据不统一,这让数据人才的工作中存在着大量的低水平重复劳动。
要打通繁杂的工具链条,需要找到链条上的大公约数,基于用户最多、体验好、功能强的开源软件,包括TensorFlow、ggplot2、scikit-learn、Jupyter等等,用云原生的技术范式,与消费互联网的用户体验,实现工具链条的统一与融合,实现对传统的统计分析软件(如MATLAB、SAS)的替代和升级。
另一方面,数据工作者的所有工作成果,都是为了服务于业务问题,否则就是空中楼阁。对于数据分析、数据建模的过程,业务人员的参与度仍然很低,这极大限制了数据资源产生的业务价值。
和鲸赋能业务人才的方式,是打通协作链条,让业务人才能够看到、参与数据工作的全流程、全生命周期。在数据加工的过程中,工作成果在不同阶段如何流转、分享、交互、整合,从一个黑箱,变成了一个透明、有序的流水线,让企业的每一个人参与到数据分析、数据决策、数据建模工作中,让数据的价值,从做加法变成做乘法。
历时三年多的产品迭代,我们的核心产品K-Lab,具备了出色的用户体验和产品口碑,赢得了包括了清华、南开、同济、协和医学院、中国电信、中国银联、中电科等在内的,国内最优秀的一批机构客户的信任。
举一个刚刚结束的例子,以方便我们从实际场景来理解“数据科学协同平台”的价值。数据科学的发展,使得医疗科研在研究方法、运作方式、传播交流等方面发生了深刻变革,能够熟练掌握大数据技术的医生,其科研成果也普遍有着更高的行业影响力。自2016年起,解放军总医院和MIT每年都会联合举办一次Datathon活动,致力于探索开放式科研和跨学科合作模式,推动医疗数据的实践应用落地。
Datathon的形式,通常是一种短期、高强度的小组竞赛,参赛者包括临床专家、数据科学家、统计学家、工程师和计算生物学家等知识背景和技术不同但互补的专业人士。这样一个参与者来自全球的“医-理-工”多学科专家的大数据创新活动,就遇到了上述数据人才与业务人才之间的协同问题。
这次的“2019PLAGH-MIT医疗大数据Datathon”,和鲸是技术支持方。Datathon的数据实操环节和活动全程,都是在我们的“数据科学协同平台”K-Lab所提供的AWS云计算环境中进行,不需要基站等大型实体设备,任意电脑只需上网打开浏览器即可使用,选手无需加载即可直接访问K-Lab中已经配置好的数据库,可以支持在场的几百名选手同时在线登陆平台,并进行流畅的在线数据分析。
由临床医师、算法工程师、医疗大数据工程师组成的跨领域团队,通过datathon这样一个物理意义上的平台和K-Lab这样一个虚拟平台,进行紧密高效地协作,合力解决临床医生面临的众多问题和未满足的医疗需求。这在以前,是很难想象的。
数据科学的发展,使得医疗科研在研究方法、运作方式、传播交流等方面发生了深刻变革,能够熟练掌握大数据技术的医生,其科研成果也普遍有着更高的行业影响力。中国目前针对医疗领域的大数据教学,还处于起步阶段,Datathon这种能够促进跨学科人士交流、并提供完备的基础设施和数据素材进行开放式科研协作的活动,显得更加难能可贵。
随着数据的增加,值得科研人员探索的问题也在变多、变难,Datathon的开放科研模式,以数据为基础与协作为桥梁,建立起了多学科之间的深入合作,为科研工作的形态打开了全新的可能。Datathon + K-Lab的模式,值得在众多领域进行推广和复制,这也是和鲸在2020年会着重关注的。
未来,与具潜力的机构与人才一起成长
数据的重要性已经成为了共识,但最佳实践还缺少积累,基础设施与人才队伍仍在建设初期,大部分行业和企业仍然难以开启“更多数据”、“更多智能”的飞轮效应。
虽然每个行业和场景,都有着数据化升级的广阔前景,但是落地成本和可复制性仍存在着很大的差异。和鲸科技在与众多行业客户的合作中发现,能否开启数据智能的转型,大的瓶颈是行业的信息化水平,以及优秀人才的储备。
多年的行业实践,让我们看到,数据智能的变革是一个很艰巨的挑战,东拼西凑、投机取巧是无法取得成功的,只有客户自己的数据分析与数据科学团队能够成长起来,具备可视化图表、数据分析报告、模型开发的基础能力,一个组织才能够真正开启数据化升级的历程,创造出前所未有的业务价值。
作为一家通过产品赋能用户的公司,我们选择和具成长潜力的机构客户与数据人才站在一起,聚焦在大学、科研机构、综合性教学医院这些人才成长性高、协作密度高、协同需求高的领域。通过协同平台与开放社区的结合,和鲸伴随客户实现人才积累、算法积累、场景渗透的复合发展,并面向行业形成标杆效应,让行业客户看到数据智能落地的具体路径与真实过程。
机构与企业,都已经开始着手储备数据、利用数据、建设和采购自己的数据科学平台,这是已经出现的大趋势,那么数据科学协同平台的天花板究竟会在哪里?
对于这个问题,我们也有着长期的判断。美国的数据科学平台的市场已经证明,这个品类可以出现多家百亿美金的企业。在云原生和开源软件的技术趋势之下,软件分发成本会持续下降、产品迭代速度会持续加快,将全球化的开源软件、智能算法创新在中国落地,同时把中国市场特有的产品能力、工程能力与运营能力在全球市场进行投放,将会是下一个十年属于中国的双重红利。
真正让我感到兴奋的愿景是,新一代的数字化人才来自于全球各个国家,不同专业领域与行业背景,通过和鲸科技这个“数据科学协同平台”,以在线协作的方式,参与到全球的商业项目、科研项目、公益项目之中,通过数据资源与数据科学的杠杆,获得更多收入与成长。
借助网络、计算与数据的无穷潜力,实现个人价值与潜力的大化,这是只有信息技术发展到了今天,才有机会去真正实现的一个愿景,也是我常常会和团队讲的“值得做一辈子的事情”。