• 2022年10月2日

2022 爱分析 · 数据智能厂商全景报告

数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的信息,从而为企业提供数据驱动的分析与决策。

当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。

9月16日,爱分析正式发布《2022爱分析·数据智能厂商全景报告》,爱分析综合考虑企业关注度、行业落地进展等因素,选取了13个特定市场进行重点分析,帮助企业更清晰地了数据智能领域发展形势,同时遴选出能够为企业提供数据智能产品和服务的优质厂商,助力推进企业数字化转型。

分析型数据库、数据库管理平台、实时数据平台、DataOps、数据中台、云数据平台、数据分析平台、 数据科学与机器学习平台、知识图谱平台、隐私计算平台、城市大数据平台、智能营销、安全大数据

爱可生、佰聆数据、柏睿数据、北极九章、洞见科技、斗象科技、飞算云创、衡石科技、九章云极、科杰科技、每日互动、睿帆科技、数库科技、数说故事、数新网络、数造科技、中科闻歌

数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的信息,从而为企业提供数据驱动的分析与决策。

当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。

本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中数据基础设施指利用云计算、人工智能、隐私计算等新兴信息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务;应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践。

综合考虑企业关注度、行业落地进展等因素,爱分析在本次研究中选取了分析型数据库、数据库管理平台、实时数据平台、DataOps、数据中台、云数据平台、数据分析平台、 数据科学与机器学习平台、知识图谱平台、隐私计算平台、城市大数据平台、智能营销、安全大数据共计13个特定市场进行重点研究。

本报告面向企业决策层以及数据部门、业务部门负责人,通过对各场景的需求定义和代表厂商的能力评估,为企业的数据智能基础设施及应用规划、厂商选型提供参考。

近一年厂商在特定市场的营业收入达到指标要求(参考第3章各市场分析部分)。

爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在数据智能市场中具备成熟解决方案和落地能力的入选厂商,详见下图。

定义:分析型数据库是指为应对企业管理人员、业务人员、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类数据存储和计算引擎,包括数据仓库、数据湖、大数据平台以及湖仓一体数据平台等。

在企业数字化转型的过程中,数据应用场景呈现多元化趋势,数据规模也呈爆发式增长,企业需要深入挖掘数据价值,以提高生产与经营效率。在此背景下,对分析型数据库的数据库存储、计算、查询等能力提出了更高要求。具体而言,企业对分析型数据库的需求如下:

实时数据应用场景激增,企业需深入挖掘实时数据商业价值。企业在提高生产与经营效率的过程中发现,数据的时效性至关重要,如电商行业的订单查询、金融行业的实时风控等场景。因此,企业需要加强存储、查询与分析实时数据的能力,充分挖掘其商业价值。

业务需求爆炸式增长,存算资源弹性扩展能力急需增强。传统分析型数据库的存储和计算资源通常是耦合的,导致存储资源冗余、计算资源不足与扩展成本高的问题,且节点扩展会存在上限,影响系统的高可用性;同时,部分企业采用本地部署分析型数据库的方法也会对其存储能力、扩展性与并行处理能力产生影响。因此,企业需要优化已有分析型数据库的部署方式与扩展能力,为大数据分析的性能与速度提供保障。

业务智能化场景增长,对企业数据价值挖掘能力提出更高要求。近年来,企业业务场景不断丰富,数据正在成为其业务创新的核心,而大数据与人工智能等技术成为重要技术手段。但传统数据库存在对人工智能和机器学习等高级分析技术支持不足的问题。因此,企业需要借助人工智能技术增强分析型数据库的分析能力与效率,以及时响应业务需求。

运维成本过高,数据系统架构需简化。部分企业受到资源、技术能力等的限制,缺乏统一规划,部署了多种性能各异、彼此独立的分析型数据库,导致系统架构非常复杂,管理、维护与数据迁移的成本很高,稳定性差。因此,企业需要在统一规划之后,简化系统架构,降低分析型数据库的运维成本。

信创浪潮下,企业需要实现数据库国产化。在信创政策要求下,政府、国央企与金融等行业需要将已有分析型数据库更新为国产背景、符合信创要求、已通过国家自主可控测试的数据库,充分保障数据库的安全可控。

具备较高的数据存储、查询与分析性能。厂商所提供的分析型数据库需要能够对海量数据进行存储、高并发查询与分析,满足特定场景下的性能需求。例如,部分场景下分析型数据库需要能够存储与管理实时数据,支持各类SQL标准,对海量实时数据进行高性能数据加载、高并发查询与分析等操作。

云上部署与弹性扩展。厂商需要能够提供支持云上部署、存储节点与计算节点相互独立且可分别独立扩展、在面对数据高并发场景时可按需快速实且现横向扩容的分析型数据库,充分利用云的可扩展性与相关资源。

支持智能化的数据分析和应用。厂商所提供的分析型数据库需要能够应用当前流行的AI、机器学习、高级分析等技术,实现对海量、高吞吐、高并发、多源异构数据的自动化与智能化查询与分析,提高数据价值挖掘效率与质量。

简化系统架构,统一管理数据。厂商需要提供性能良好、稳定性强、能够与已有数据库兼容的分析型数据库,帮助企业实现简化数据系统架构,实现以低成本进行系统维护、数据开发以及数据的统一存储与分析。

符合信创标准,实现国产化替代。厂商需要能够提供国产自研、能够与国产主流软硬件兼容适配、符合国家信息安全标准等资质要求的分析型数据库,同时,还需能够进行数据库迁移,完成国产化替代。

定义:数据库管理平台是指具备对多类型数据库进行统一安装部署、迁移、备份、监控告警、巡检、性能分析、智能运维、安全管控等数据库全生命周期管理能力,提升企业数据库综合运维效率的平台。

企业应用的数据库种类在快速增长,一方面丰富的数据类型需要多种关系型、非关系型数据库储存;另一方面,开源和国产数据库的崛起也迅速打破传统商业数据库垄断的局面。数据库种类的增加在满足企业多种场景需求的同时,也带来繁重的数据库管理及运维工作。企业需要简化多模异构数据库的管理工作,降低管理成本。企业对数据库管理平台的核心需求主要体现在以下几个方面:

简化数据库管理工作,降低数据库运维成本。随着企业系统中数据库数量及种类快速增加,企业需要完善的数据库管理工具如监控告警、安装部署、备份恢复、安全管理、高可用性、资源管理等工具对多终数据库进行统一的管理运维,简化数据库管理工作。

数据库管理员易上手、操作便捷。针对复杂的数据库集群架构,企业需要数据库管理平台兼容多种类型数据库,提供诸如可视化功能、系统诊断分析、支持自动及自定义部署等工具,帮助数据库管理员实现多数据库轻松管理、便捷安装。

厂商需要能够提供平台化、一体化的数据库管理平台产品。数据库管理平台能够提供多基础设施的整合能力,将多种类型的数据库纳入管理的范围,并提供平台化的工具覆盖数据库全生命周期,整合监控、性能分析、巡检、审核、运维、安装部署、变更、SQL执行、数据迁移、安全管控等众多功能模块,为企业提供一体化的数据库管理服务,降低复杂性。

厂商需具备数据库智能化管理能力。除数据库管理外,厂商还应具备机器学习、RPA等AI技术,将部署、巡检、数据采集、审核等流程自动化或半自动化,减少重复的人力劳动;以及支持数据库智能分析,提供数据库性能可视化,实现智能告警优化、趋势分析、异常诊断等数据库运维功能,降低数据库管理员门槛。

定义:实时数据平台是指基于数据同步、流处理等技术,支撑数据实时采集与接入、实时存储、实时计算、实时分析与查询等能力,从而提供实时数据查询与分析决策服务的数据平台。

随着市场竞争环境和客户需求的快速变化,以及实时数据的积累,实时数据应用在提高生产效率、提升客户体验和提供个性化产品和服务方面的价值日益凸显,企业对数据驱动业务决策的实时性需求在不断提升。为此,许多企业通过手工定制、消息总线和事件流中间件等方式进行数据集成,但这些方式各自面临业务耦合度过高,管理、复用困难,实时性不足等缺陷,因此,企业需要通建设统一平台进行实时数据的汇聚、开发和运维管理。企业对实时数据平台的需求主要有以下方面:

实现实时数据汇聚。企业数据分散保存在多个数据库、系统中,数据的类型繁多、数据收集频率的差异也在客观上提升了数据进行实时采集和同步的难度,因此,企业急需通过借助专门的实时数据工具,实现实时数据汇聚。

海量数据统一存储和管理。大型企业每天产生的数据在TB甚至PB级,多数据源、多模数据的大量采集、长期保存、冷数据变温数据等带来了新的海量数据存储需求,而随着企业数字化建设进程加快,数据存储云、边、端并行,需要对数据进行有效管理,保证数据能够高速流转。

数据即时查询和分析。查询和分析是实时数据应用的核心,但大数据的加工、处理和分析过程较为复杂,因此如何能够提升数据查询和分析速度,让实时数据的价值最大化,是企业最为关注的焦点。

技术架构支持业务稳定运行。企业流数据往往有多个来源,以金融、零售行业为例,在双十一、618等重大节点容易面临数据高并发的情况。因此企业需要搭建一套稳定成熟的平台架构,在高并发的情况下保证系统运行稳定性。

在各业务场景中最大化实时数据的价值。实时数据分析是一个与业务场景进行深度结合的过程,因此企业需要针对自身业务情况,根据不同场景的要求,与具体业务逻辑相结合进行高度定制化的场景开发,从而保证应用效果最大化。

提供实时数据汇聚能力。一方面,厂商需高度适配各类技术框架,支持Kafka、RocketMQ、 IBM WebSphere MQ等多种数据源,以及多种数据格式;另一方面,厂商需要提供实时数据采集和计算技术框架,实现数据实时汇聚。

提供统一数据管理平台,进行数据分类分级存储和管理。首先,厂商需要为企业提供统一数据管理能力,通过平台化的集中式开发,沉淀数据任务模型,统一规范数据调用权限。在此基础上,厂商要基于存算分离模型,根据数据访问需求程度和其生命周期阶段,对热数据、温数据和冷数据进行分级存储。

具备高性能数据分析引擎。在数据分析与计算环节,厂商需将实时处理过程中的复杂计算逻辑,包括糅合指标、模型、业务规则等各类计算逻辑封装为可编辑的数据模型,并尽量实现高度模块化封装。其次,分析引擎需要具备较高性能, 提供目标应用程序所需的吞吐量和延迟要求,对数据查询进行即时响应,同时尽量能够提供基于 API 的高度灵活和可扩展的查询分析服务。

提供满足高并发高可用的先进技术架构。厂商需要提供高可用的技术架构,甚至可进一步具备在异常情况下的集群自愈能力,帮助企业有效应对数据高并发量的压力。

场景化实施经验丰富,具有成熟的行业解决方案和较强的定制化能力。不同行业在数据类型和实时数据应用场景上都有很大差异,而每个具体应用场景都是大数据技术、数据指标、模型和业务逻辑有机结合的产物,因此厂商首先需要具备定制化开发能力,其次需要在积累不同行业的场景化落地经验的基础上形成相对标准化的行业解决方案,保证实时数据平台的成功落地。

定义:DataOps(数据研发运营一体化)是人、流程和技术的高效组合,用于管理代码、工具、基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据生产者和数据消费者的协作,持续交付数据流生产线。

数据分析对企业的价值日益增长,企业内部数据分析愈加民主化;与此同时,数据分析工具如BI、机器学习、可视化、数据挖掘等多元工具的运用,以及复杂的数据用户角色如数据工程师、数据管理源、报表开发人员等,大大增加了数据开发及运维工作量以及数据应用交付的协调难度。针对数据应用开发,企业面临的主要需求是:

实现跨部门、多角色协同。原始数据从获取、加工、就绪到产生价值的过程涉及多部门多角色协同,如数据架构师、数据工程师、数据分析师、测试工程师、数据科学家、运维工程师、数据管理员、数据分析师等,目前各角色之间目标割裂、难协同,导致数据应用开发周期长,企业需要一套工具能将多种角色组织在一起,高效协同完成数据应用开发,降低应用开发延误。

提高数据质量。在数据应用开发过程中,常由于数据质量问题导致数据应用难使用。数据质量问题来源于多个方面,如提供数据源的业务系统没及时规范地更新表结构、数据口径不一致、数据填报不规范、以及数据存储架构调整引发数据源意外改变等,企业需要体系化地对数据全生命周期进行数据治理,保证数据质量,让数据可信。

提升数据开发效率。在实际的业务系统中,数据来源多种多样,不同数据对数据处理的时延和数据量的要求不同,产生多种任务类型如离线同步、实时同步、离线计算、实时计算等,需要跨平台相互配合完成多个异构任务。因此开发人员面临大量数据流转规范、计算节点执行顺序编排等问题。此外,数据开发之后的部署上线也会花费大量时间。企业需要一体化平台管理跨平台异构数据任务开发、测试、部署上线,提高数据开发效率。

简化数据运维工作。当前企业各产品应用都会有监控告警能力,比如离线任务突破基线、实时任务失败、API调用失败等,企业需要统一监控平台实现对多产品的监控、告警。

保障数据安全。随着数据的民主化、数据应用的广泛使用,数据安全也成为企业重点考虑的问题。数据安全涉及到系统安全、数据安全、安全审计等,企业需要系统化的工具保证数据生命周期各个环节安全。

厂商应具备一种或多种DataOps工具及技术,支持实现数据应用敏捷开发。如针对企业多种硬件环境、开发环境、发布环境、运维流程等,厂商应具备云原生、容器技术提供统一的开发、测试、运维环境;如为满足特殊数据应用的时效性,厂商应具备实时和流处理功能;针对复杂的数据类型及应用场景,厂商应具备多种分析引擎,如分布式处理引擎、离线批处理引擎等;针对数据质量,厂商应具备数据治理、数据血缘、数据标准的能力。此外,厂商还应具备应用集成、数据安全等功能。

厂商应具备丰富的实践经验,能基于DataOps理论为用户制定合适的解决方案。一方面,数据开发运营一体化涉及数据存储、数据计算、数据开发、数据运维等数据价值链各个环节,需要厂商具有丰富的实践经验和成熟的DataOps理论协助企业挖掘痛点、分析原因、提出合适的解决方案;另一方面,企业数据开发、运维、管理能力参差不齐,需要厂商兼容、优化企业现有数据开发、运维、管理功能及能力,针对缺失、薄弱的环节进行定制化开发,实现数据开发运营一体化。

定义:数据中台是在统一数据标准规范基础上,提供数据接入、数据开发、数据资产管理、数据分析、数据服务等能力的数据资产管理和服务平台,帮助企业实现数据集中管理和服务。

近年来,随着企业信息化、数字化进程加快,企业内部各业务系统数量增加,多系统数据重复计算、数据难以集成利用、数据质量堪忧等现象普遍。为打破数据孤岛,提升数据服务能力,需要进行数据中台建设。综合来看,企业对数据中台的建设普遍具有以下几方面需求:

实现数据统一接入和集成:许多大型企业的数据存储基础设施建设普遍以业务需求为导向分批分次建设,没有形成统一规划,导致数据孤岛和数据碎片化问题,在数据调用时需要分别从不同的系统、数据库中取数,异常繁琐。因此,企业需要通过建设统一平台,对多元异构数据进行统一接入和汇聚,形成集团层面的数据底座。

提升数据质量,形成统一数据资产:企业在多年数据建设的过程中,搭建了多种不同的数据仓库或是基于开源技术框架的数据存储工具,数据标准、口径不统一,数据指标混乱,质量参差不齐,无法集中对外提供数据查询和数据服务。因此,企业需要通过标准化数据治理,完成数据的资产化,并实现统一调度和开发的能力。

统一数据开发,提升数据服务能力。数据开发涉及复杂的流程,技术门槛较高,面对多个业务部门的需求,企业存在重复开发和建设问题,造成成本浪费,需要建设企业统一的数据开发与服务平台,将数据资产转化为业务可用的数据服务,以实现能力复用与服务共享。

确保数据资产能够持续高效运营和提供服务。数据中台不仅是对企业数据采、存、管、算、用全流程的体系化建设,也是对企业数据应用习惯,甚至企业组织和文化层面的重大革新,因此数据中台搭建仅仅是第一步,更重要的是如何采用一套科学的管理和使用方法,让中台持续发挥其数据资产运营服务的价值。

适配多种技术架构,帮助企业有效屏蔽底层技术栈差异。厂商首先需要开发出集成度高的数据接口、能广泛适用各类数据源的数据采集工作,打通数据仓库和数据湖之间元数据的移动和访问,同时能够对结构化与非结构化数据进行集中存储与处理。同时,厂商还需要考虑到企业数据存储的扩容需求,保证用户能够稳定通过增加存储节点应对数据量的增长。

提供数据治理服务,构建全面的数据资产管理体系。首先,厂商需要具备数据治理和咨询规划能力,通过对企业数据进行全面盘点,对数据指标进行分类,制定数据标准,划分数据安全等级等,将企业数据资产化。其次,厂商需要通过成熟的中台产品实现数据开发和处理的标准化流程,建立数据类目标签体系,便于数据检索和维护,实现数据治理的完整闭环。

能构建完整的数据开发链路,形成高效数据服务。厂商数据中台产品需要提供统一的数据服务接口,以及实时和离线开发工具,同时配合智能调度、智能运维、监控告警等一系列工具,实现数据资产的统一开发和调用,提升数据开发人员和分析人员的效率,高效灵活地支撑前台业务。其次,厂商产品需具备数据服务能力,提供将数据资产快速转化为业务可用数据服务的功能体系,并实现数据服务的管理和调度。

具备丰富落地经验,能提供企业数据中台建设咨询和定制化服务。企业需要具备较强的咨询服务能力,需为企业在数据运营体系、组织协同和数据应用场景拓展三方面提供切实可行的方案,并通过培训等方式强化和落实。此外,不同行业、不同规模的企业其组织文化、业务场景和数字化水平差异巨大,因此数据中台的定制化程度较高,厂商需要在积累大量客户服务经验基础上,加深其对不同行业和业务场景的认知和理解,提升面向不同行业的解决方案成熟度以及定制化水平。

定义:云数据平台是具备多租户、弹性扩展、计算存储分离等特性的新一代数据平台,提供数据存储计算、数据集成、数据开发、数据治理、运营管理、数据分析、数据共享和服务等一站式能力,支持对各类结构化和非结构化数据的处理,以及BI、数据科学、AI/ML、实时分析等数据应用场景,从而帮助企业低成本地获得自助式、可按需使用的数据平台服务,并实现安全的跨组织数据共享和消费。

企业随着数字化转型的推进,数据规模和数据应用场景快速增长,而传统架构的数据仓库、数据湖等数据基础设施,由于不具备弹性扩容、多租户管理等能力,导致使用门槛高、扩容和运维成本高、数据利用效率低、组织间数据共享难等问题日益突出。针对诸多问题,企业需求具体如下。

数智化时代,以数据驱动业务的趋势愈发明显,然而在传统数据应用体系下,企业普遍缺乏全流程的数据工具,不同模块间链接不通畅、数据利用效率低等问题突出,因此通过一站式的数据产品及服务,降低开发成本、减少开发时间、实现数据价值最大化是企业现阶段重点需求。

为全方面激发数据价值,企业需要跨部门、跨业务线甚至跨企业、跨地域的数据共享与联动分析,并可能需要引入外部数据源进行数据补充。因此,在保证数据安全、自主可控的前提下实现跨组织的数据共享与分析是企业的另一需求。

传统数据平台系统,由于扩展弹性较差,且不支持存储和计算独立扩容,导致闲时存储、计算资源浪费,且投资成本高,因此企业需要降低数据库及算力投资、运维成本,实现实际需求与可调用能力的精准匹配。

随着竞争的逐渐加剧,越来越多的企业决策者和业务人员,都期望能够实现T+1甚至 T+0 的实时数据反馈,从而基于更有时效性的数据进行业务决策,避免因决策周期过长而导致错失商机,如何实时地集成、调用、分析数据也是企业重要关注点。

能为企业提供从数据存储、数据集成、到数据分析应用的一站式数据服务,通过产品的整体封装,屏蔽了底层技术框架的复杂性,帮助企业建立易用的全流程数据工具体系,实现数据价值的深度挖掘,并提供/支持BI可视化功能,直观简约的体现数据价值,赋能企业管理层和业务人员。

具备多租户管理能力,实现跨组织数据共享与消费,使企业能够对来自内部不同业务部门、分支机构以及外部不同组织的数据源进行数据专区隔离管理,在保持各数据源独立性、数据安全性的前提下,实现跨组织的数据共享,并以此来提升企业数据建模能力,更好的为业务赋能。

基于云环境,将整体数据平台云化,利用云服务器、分布式存储等技术,产品采用计算存储分离架构,具备弹性可伸缩能力,根据企业需求实现在公有云、私有云、混合云等部署环境下的一键扩缩容、按需计费,并大幅降低运维成本。

具备更快捷的复杂查询性能,从而明显降低批处理、即席查询等任务所需的时间,支持实时分析,保证数据处理能力的高时效。

支持主流的开源生态,并提供智能化的运维管控平台,实时监控数据平台运行状态,并提供多种方式的告警服务。

定义:数据分析平台是一套由ETL引擎、数据仓库、数据分析工具和数据查询报表工具等功能模块组成的软件系统,能够在打通和整合企业内部各类数据源基础上,通过多样化的数据查询和分析,以数据报表和其他可视化图表形式输出数据分析结果。

数据分析和可视化是企业数据最直观的价值呈现方式。随着数据量的指数级上升和数据类型的丰富,企业对数据分析平台的需求也从最初较为简单和定向的报表和大屏,向多元化、场景化的深度挖掘分析,以及低操作门槛的方向演变,具体而言:

支持业务人员、管理人员实现自主数据分析。数据分析结果的最终受众是企业业务人员和管理人员,但大多数数据分析平台的主要使用者是企业数据团队,在业务逻辑向数据逻辑转换过程中,由于沟通成本等原因,需求响应的即时性和准确性都难以保证。因此,企业业务人员和管理人员需要一个低门槛、易操作的数据分析查询平台,不仅能够直接满足其部分即时性、灵活的数据分析需求,同时还能够方便其参与数据分析过程,与数据团队协作共建。

提升数据分析结果产出速度。企业在多年的数据分析实践中,经过多次加工处理形成了极度膨胀的ETL任务和中间表,在运行中会消耗大量IT资源,严重拖慢了分析结果产出的速度。随着外部市场的变化加快和企业运营的敏捷性提高,企业需要小时级、分钟级的分析结果,无法接受以天为单位的产出。

支持业务侧大量场景化、定制化需求。随着企业在对数据分析产品的使用不断加深,不再满足于仅仅用其生产固定报表,而是希望能在更多深度结合垂直业务的分析场景下使用数据分析平台满足相应的需求。然而,大部分数据分析平台是基于预设的分析场景进行搭建,新需求的实现需要数据工程师进行定制化开发,等待周期较长,极为不便。

为满足以上需求,厂商需要为企业提供高性能、分析功能强大、低门槛的数据分析平台,具体而言:

通过构建高性能数据分析引擎或高效数据流通链路等方式,提升数据分析速度。其一,厂商可以基于AI算法,在数据准备和数据探寻等数据分析环节中实现流程的自动化,提升效率;其二,厂商可以通过建立更完善和通畅的数据接入、处理、分析全链路,加快数据流转。此外,厂商还可以通过构建独立的模型指标层,实现数据存储和计算的解耦,从而实现高效的数据分析。

能提供丰富的数据分析功能,并支持模型、指标的灵活调整。厂商对预设数据分析场景的定制化能力无法满足企业衍生出的多样化、垂直场景化的分析需求。因此,厂商首先需要在产品中加入以机器学习、深度学习等技术为基础的分析引擎,支持对大数据实现归因分析、预测分析等多种智能化分析方式;其次,厂商产品需要支持数据模型以托拉拽等方式灵活调整,帮助数据分析人员实现快速按需定制。

能提供低门槛、高易用的数据交互方式,满足业务人员使用需求。为应对非数据分析专业人员的查询、分析需求,厂商首先需要提供便捷的数据查询入口,支持通过拖拉拽、搜索、语音等简易交互方式实现数据查询;其次,厂商需要优化在报表展示界面,让用户能够通过滑动、托拉拽等操作自主进行数据和指标的关联分析、对比分析等,并支持多种图形化呈现方式选择。

定义:数据科学与机器学习平台是指涵盖数据接入、数据准备、特征工程、模型训练、模型部署、模型管理等端到端建模全流程的软件平台,为企业提升模型开发效率。

为敏捷响应市场变化需求,企业智能化应用场景正变得更加普遍,如智能营销、智能风控,由此带来企业建模需求激增。传统的机器学习模型主要依靠专业数据科学家进行开发,存在开发流程慢、模型反复开发不共用的情形。整体而言,企业对数据科学与机器学习平台的需求主要体现在以下几个方面:

提高建模效率,快速响应业务需求。机器学习模型构建通常由问题定义、数据收集、特征工程、模型选择、模型训练、模型评估等多个环节组成,每个环节又包含多种路径,以及多组可选参数,依赖人工进行开发,模型从开发到部署上线的周期时间过长,导致模型应用不能及时满足前端业务需求。企业需要自动化建模解决方案,缩短建模周期、降低建模成本,快速响应前端业务需求。

降低建模门槛。传统的Al模型构建难度大,技术门槛高,通常需要具备专业建模知识的数据科学家来完成,但大部分企业往往不具备完善的数据团队,因此需要具备低门槛的数据科学与机器学习平台,可供一般业务分析人员使用,增强业务建模应用的灵活性、及时性。

模型资产积累。传统的机器学习模型存在模型文档编写费时费力、数据科学家成熟的建模经验无法供其他人员复用、模型交接低效导致模型反复开发等问题,企业需要将优秀的模型沉淀为模型资产,提高模型复用性,加速模型应用上线。

保证模型效果。企业智能应用的场景主要为分类、预测、推荐,由于直面用户,模型效果的优劣直接影响企业风险控制、成本控制以及收益,企业需要持续提升模型效果。

厂商应具备自动化建模功能。厂商的机器学习平台应能简化数据准备工作、可支持特征工程自动化、支持通过拖拉拽的方式实现模型开发,大幅提升建模效率,同时降低建模门槛,可供专业的数据科学家和一般业务分析人员同时使用。

厂商应支持实现模型资产沉淀。提供一键应用功能,将训练成功的模型以API的形式发布为线上服务,降低模型上线难度,并支持将企业现有模型集成形成模型资产共享,供其他用户在线调用,提高模型复用率。

厂商能提供场景化建模支撑。由于模型开发和应用与行业场景的高度结合,厂商提供的机器学习模型平台需内置针对特定行业的模板和特征库,契合场景建模需求,如针对金融风控行业提供风控标准评分卡建模模组,可对信贷申请者进行多方面信息挖掘,快速建立各种具备高精准性的风控评分卡模型。

定义:知识图谱平台是支撑知识图谱构建与应用的平台,该平台融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义网、数据挖掘与机器学习等技术,提供知识抽取、知识表示、知识融合、知识推理、知识存储以及知识图谱应用等能力,帮助企业构建知识图谱并实现统一的知识图谱管理和应用。

目前,数字化转型已进入数据驱动阶段,企业需要实现认知决策类业务场景的智能化,尤其是从大量非结构化数据中挖掘关联关系等数据价值,赋能业务应用。知识图谱提供了一种从海量非结构化数据中抽取结构化知识,并利用图分析进行关联关系挖掘的重要技术手段。核心需求包括:

高效实现知识构建,形成知识推理计算能力。非结构化数据存在数据量大、数据格式多样、结构不标准且复杂等问题,处理难度高,需要基于成熟的工具,利用数据治理、知识抽取、知识表示和知识融合等技术,实现知识构建。在知识构建基础上,企业还需要具备知识推理计算的能力,结合行业Know-How 计算知识中的显性与隐性关系和拓展属性,进一步挖掘隐含的知识。

丰富领域知识积累。对于一些复杂的业务场景而言,知识构建所涉及到的知识维度广、颗粒度细,其应用也更加复杂,这就需要多个业务方向的专家共同协作,时间成本较高。因此,企业需要在日常经营过程中重视各业务领域数据与知识的积累,提高知识建设的效率。

实现知识图谱应用场景落地。为通过知识图谱技术赋能具体业务应用实现价值,企业需要快速定位高价值应用场景,根据应用场景需求,结合业务专家知识进行知识图谱构建和最终应用价值的实现。典型场景包括银行的风控与营销、公安的刑侦与经侦、品牌商的门店运营与营销等。

功能完整。厂商需要能够提供具备知识抽取、知识表示、知识融合、知识推理、知识存储以及知识图谱应用等完整能力的知识图谱平台,具备低门槛和易用性,以支撑知识图谱的构建和应用。

领域知识图谱积累。厂商需要在特定领域具有丰富的数据、模型与领域知识图谱积累,在此基础上针对特定业务场景为企业搭建专属领域知识图谱,完成知识赋能。

行业经验丰富。厂商需要具备在特定行业的知识图谱应用落地能力,尤其是医疗医药、能源、金融等行业。该能力需包括针对特定行业的业务场景和需求理解特定领域的预构建知识图谱、上层应用解决方案等,以及相关的客户服务案例。

定义:隐私计算平台是帮助企业用户在保护数据隐私的前提下,保障数据可用不可见、实现跨平台数据价值共享的软硬件平台。

金融、政务、医疗、零售、电信、交通等各领域企业或机构的IT部门、大数据部门、科技创新部门

数据应用场景的拓展,企业与外部机构之间的数据流通、价值共享愈发成为应对市场快速变化的重要手段。随着《数据安全法》及《个人信息保护法》相继颁布,国家对数据分享及利用的监管加强,企业在与外部机构进行数据流通过程中需要解决合规、安全问题。隐私计算技术能实现数据可用不可见,满足安全合规,成为企业进行跨机构数据价值共享的必要手段。在实践过程中,企业对隐私计算解决方案的需要主要体现在以下几个方面:

功能完善,提供全面数据安全解决方案。不同业务场景下企业能接受的安全假设前提不同,如风控、营销场景下,企业能接受可信第三方,采用联邦学习实现隐私计算;而在医疗多中心合作模式下,医院会面临串谋攻击、环境攻击、模型攻击等内部攻击,需要融合多方安全计算、同态加密以及可信执行环境共同满足数据安全要求。

满足安全、高精度、高性能等不同场景需求。为保障数据资产安全,以及为满足相关法律法律的要求,企业需要平台在数据安全保护、系统环境、计算流程的可解释性等方面满足较高的安全性要求。而在特殊场景如工业决策、人脸识别以及多中心全基因组分析等细分场景下,企业需要高精度、高性能的隐私计算解决方案来实现大规模数据量的传输、计算,以及保证计算准确性。

具备场景专业知识,提供建模及算法支持。金融、医疗等理论门槛较高,企业需要隐私计算厂商具备专业业务知识,能提供恰当的数据分析算法和模型,帮助企业实现产出。

提供丰富数据源。数据源也是企业实现数据协作过程中的一个主要痛点。数据质量将影响数据协作共享的价值产出,因此企业需要筛选、链接合适的数据源。企业希望厂商具有丰富的数据源网络,了解企业所在行业数据特点,能为企业提供数据链接建议并推动实现合作。

厂商应具备完善的隐私计算解决方案,灵活满足精度、性能、安全等要求。厂商一方面需要具备联邦学习、多方安全计算、同态加密、可信执行环境等一种或多种隐私计算技术能力,能支撑联合建模、联合统计、隐私求交、匿踪查询等多种应用场景,并适应不同场景需求;另一方面厂商应具有底层隐私计算底座开发优化能力,通过提高模型计算效率优化、通信效率优化、网络带宽优化、权限控制以及引入第三方流量审计工具对数据用途进行验证等多种方式满足不同应用场景下对高精度、高性能、高安全的需求。

厂商应具备专业的隐私计算应用支持能力。随着隐私计算应用场景不同,厂商需要具备深厚的行业认知和洞察能力为企业实现隐私计算解决方案预期效果,如为泛金融行业企业提供建模支持、保证模型效果;为医疗行业设计专病特需的算法及应用。

厂商能提供第三方数据源链接。不同的行业需要厂商具备不同的数据源积累,如针对医疗行业,厂商需要具备卫健委、医院、医保局、医药公司等多方数据生态;针对金融行业,厂商需要具备运营商、支付、互联网、政务等数据源积累,厂商能根据用户业务场景提供合适的数据源链接意见,帮助企业快速提升模型效果。

定义:城市大数据平台是指将海量城市大数据(包括政务大数据、产业大数据与社会公益大数据三类)进行收集、整合、存储与分析,并使用分布式存储、数据挖掘、实时动态可视化等大数据技术助力城市优化资源配置的数据平台。

新型智慧城市的建设需要以数据共享与治理为基础,但在此过程中,存在各信息系统数据分散且孤立、数据治理与应用水平低等问题,严重阻碍了智慧城市的建设。因此,城市应该联通各系统底层数据,并进行统一管理与应用,为智慧城市建设提供坚实的数据基础。具体需求如下:

海量数据分散分布,需要实现数据互联互通。城市大数据来源丰富,分散于经济、社会各个领域和部门中,难以实现互通共享,导致多部门协同联动无法实现。因此,各城市应该对全量数据资源进行分级有效收集与整合,打破数据壁垒,大大提升数据使用效率。

数据来源与类型多样,需要加强统一标准化管理。由于各类城市数据类型丰富、数量庞大且增长速度极快,存在数据质量参差不齐、数据冗余、一数多源等问题,导致数据利用率大大降低。因此,各城市应该加强对多源异构数据的统一汇聚与统筹管理,提升数据使用的便捷性。

数据量激增,充分挖掘数据价值需求迫切。随着智慧城市建设的深入推进与物联网基础设施建设的不断完善,以交通、警务为代表的政府部门数据量巨大,城市数据量剧增,这对各城市对各类大数据的应用能力提出了更高要求。各城市应该以强化数据应用能力,深度挖掘数据价值,赋能疫情防控、洪涝预测、经济大脑等治理场景。

为满足以上需求,厂商需要为各城市搭建能够实现数据联通、存储、管理与分析的城市大数据平台。具体能力如下:

实现数据共享与联通,搭建城市大数据底座。该平台需要能够打通各领域、各系统、各部门之间的数据,实现政府与企业全链路数据的双向对接,以提高数据使用效率,为产业协同与城市的精细化管理提供数据基础。

建立统一的标准,进行数据存储、分类与治理。一方面,该平台需要能够对来源不同、结构不同的各类城市数据进行标准化建模与分布式存储,保证数据的一致性、标准性与完整性;另一方面,该平台还需具备加工、分类与标签化数据的能力,实现对政务信息、资源信息等数据的统一管理与按权限开放。

以大数据为基础,多模型精准分析城市数据。该平台需要能够在交通、平安、医疗等场景下,运用聚类、回归等分析模型对相关数据进行分析、预测与评估,为税务稽查、金融监管、农业贸易、商务等场景提供支撑,提高政府部门所提供公共服务的质量与公安、交通等部门的管理效率,优化城市资源配置。同时,该平台还需能够将实时数据、数据分类与分析的结果进行实时可视化展示,以提升数据利用率。

定义:智能营销指在 用户洞察-营销策略制定-用户触达与转化-效果评估 的数字营销流程中,能够运用大数据挖掘、自然语言处理、知识图谱、机器学习等大数据与人工智能技术,通过对某类营销方式全过程或部分环节的智能化来提升营销质效,包括大数据用户洞察、舆情趋势洞察、精准投放、个性化推荐等智能营销场景。

对已初步搭建数字营销体系的企业而言,在用户洞察、营销策略制定、用户触达与转化、效果评估等环节仍存在痛点,需要借助更全面的数据源与先进的大数据技术更好地完成营销目标。具体需求包括:

外部数据缺失,需要合规采集与分析多维度用户数据。传统的用户洞察依托企业 CRM 或 CDP 已有会员数据,缺少合规的外部数据;用户画像和潜客预测等洞察场景很大程度上仍依赖人工经验,准确度不够高。随着数据智能技术的发展,企业希望能够合规使用人群特征偏好、行动轨迹、舆论趋势等各项数据,通过算法模型进行实时智能分析,生成更准确的洞察结论与可视化的数据展示,支撑策略制定优化。

市场洞察难度大,需要借助智能化手段进行全面分析。多样化的渠道和庞杂的市场信息给企业制定营销策路带来挑战,要了解市场全局、确保营销效果变得更困难。因此企业基于专业知识与经验去制定整体营销策略的同时,愈发强烈需要对全局市场环境形成系统性的分析方法,在客群趋势、竞品策略、市场反馈等方面获得及时准确的数据。

用户触达效率较低,智能化运营水平急需提高。随着营销精细化程度不断提高,企业需要提高用户触达与转化环节的自动化智能化水平,基于用户生命周期或基于用户分群构建丰富的营销模型,支撐拉新、促活、个性化推荐、首购、复购、交叉购买等场景,实现精准的千人千面营销,进一步提升各环节转化效果。同时,还需要充分利用长期的营销态势量化数据与各产品、活动的实时转化数据进行模型自动评估,并将量化、实时、全面的效果反馈快速应用于策路调整与优化,持续提升营销 ROl。

厂商需要在活动营销、内容营销与整合营销等领域,提供不同的营销工具、服务和方法论,且应具备大数据挖掘、自然语言处理、知识图谱、算法模型等底层技术,对数字化营销全过程或部分环节的实现智能化升级,主要应提供以下能力:

大数据用户洞察能力。厂商应提供丰富合规的数据源以及 Al 分析模型,针对企业所需的线上线下营销场景,运用大数据与机器学习技术对客群人口属性、手机及 APP 偏好、兴趣关注、品牌关注、位置分布等维度,进行实时全面的用户洞察,为营销策划提供更敏捷可靠的数据支持。

市场环境洞察能力。厂商应具备营销业务理解和市场分析方法论,并能运用自然语言处理、知识图谱、数据挖掘等技术手段收集充分的市场信息,包括线下场景的区位、人流情况,以及线上场景的舆论趋势、媒体热点、渠道分布、KOL 详情等,代替传统的人工调研和数据分析,形成对营销态势的洞察。

智能化运营能力。厂商提供的 CDP、MA 等智能营销产品,需具备智能的标签体系、丰富的营销模型和效果监测功能。通过智能打标功能使用户标签更加丰富准确;通过个性化推荐、交叉推荐、复购预测、需求升级预测等营销模型实现精准投放,并提供细致的统计数据和指标,帮助企业提升用户运营的智能化水平。

定义:安全大数据指利用大数据技术,在对全流量数据进行多维安全分析、风险事件分析、异常行为分析,深度识别、处理和防范网络安全风险的同时,优化传统网络安全、数据安全防控体系下的大数据架构,实现安全大数据的高效运营管理的综合性解决方案。

近年来,各行业网络安全监管收紧,网络安全法规频繁出台,而随着企业数据孤岛问题日益严重,以及外部入侵方式逐渐升级,仅通过传统访问权限、网络扫描等手段难以实现健全的网络安全管控。因此,企业需要利用大数据分析,提升对风险因素的感知、预测和防范能力,升级企业网络安全保障。具体而言,企业对安全大数据的需求主要有以下几点:

提升数据处理能力。网络安全分析所需数据有硬件设备数据、网络安全设备数据,以及系统日志、应用日志、运行和维护数据、外部攻击数据等,数据量大且存储较为分散,需要提升数据的集中处理能力,才能实现全面和及时的安全分析。

事前实现风险主动发现和预警。企业内外数据交互渠道不断丰富,交互频次不断提升,对网络中潜在恶意文件、恶意邮件等的防护也需要升级。在未发生风险时,需要通过过往经验及安全系统排查能力对潜在风险进行有效预防。

事后实现风险高效处理。企业数据系统复杂性不断提升,对于问题响应和处理即时性的要也在不断提升,传统安全体系下,在安全问题发生后的日志和流量分析耗费时间较长,且风险追溯要通过逐一排查实现,风险处理和修复时间长。企业希望通过高效的分析和追溯,快速进行问题定位,实现精准打击。

在满足行业监管要求和业务场景需要前提下,形成集团统一的安全管控体系。不同行业网络安全和数据安全标准存在差异,业务场景不同也带来安全防控部署上的差异,且对于大型组织而言,集团、二级单位安全功能建设和部署不统一,安全等级不对称等问题较为严重,因此,企业需要建设同时满足上述条件要求的网络安全防控体系。

具备海量多元数据处理和即时查询能力。首先,厂商要具备数据融合能力,通过多源数据分类、清洗、加工等多级处理,为安全分析提供精准可靠的数据源。其次,厂商产品需采用高可用的大数据架构,能够与企业原有大数据平台进行对接,满足国家法律规定半年以上的网络日志存储要求,实现大规模网络数据的全量采集和存储。最后,厂商产品应提供数据检索能力,通过大数据索引技术,帮助快速实现数据查询,辅助进行数据关联分析。

具备智能化的风险检测和评估能力。首先,厂商产品要能够对安全风险进行智能建模,基于历史数据行为和外部威胁情报,通过机器学习、统计学分析等多项技术,对安全行为进行场景化建模,通过攻击特征多维度分析预测、未知威胁识别等多种安全分析手段,帮助企业提前发现数据异常行为,实现风险预警。其次,厂商需要具备风险评估能力,通过对攻击行为的分析,评估该行为对网络系统的危害,辅助后期决策。

具备风险链路追踪和可视化交互能力。首先,厂商产品要具风险溯源能力,通过对风险事件逐层下钻,关联到原始日志和文件,高效定位风险源头。其次,厂商产品要具备可视化攻击链路分析能力,将分析结果以图谱等形式进行可视化呈现,清晰回溯攻击关系,方便运维人员更直观分析风险并进行针对性处理。

具备行业化、场景化安全体系建设经验和方法论,同时支持大型企业多级联安全体系搭建。首先,厂商需要熟悉不同行业网络安全标注和规范,在结合不同行业业务场景的情况下,为企业合理设计安全解决方案。其次,厂商需要根据企业组织架构和数据安全需要,搭建支撑大型企业多级级联、多分支机构的安全管理体系,考虑不同层级防御系统之间的协作,实现严密的联防联控。

爱分析厂商全景报告面向数字化市场的甲方用户,由爱分析定期撰写并公开发布,为甲方采购旅程中的数字化规划、厂商选型等环节,提供决策依据和支撑。

报告提供所覆盖领域的数字化市场全景地图、特定市场分析与入选标准,以及入选厂商列表、代表厂商评估等研究成果。

甲方用户可以依据入选厂商列表,拟定潜在供应商名单,并通过爱分析第三方评估,了解厂商在特定市场的产品服务优势,选择合适的厂商进行选型。

发表回复

您的电子邮箱地址不会被公开。