以大数据、AL建模、风控技术为基础,通过区块链和隐私计算为数据保护升级的新型数据安全合作基础设施,并提供行业建模、可信数据资产交换及分布式智能应用产品和解决方案。

新闻资讯

蓝象智联徐敏:观数据,数据观——进化中的数据法则

2024-05-14 10:48
近日和母校某位院长聊天,在他眼中相比较于我们芸芸众生,数据是这个世界的更真实存在、更持久存在和更本源法则,而我们这些个体、以及这个社会,只是一个“现象”,或者是数据对外展示的一个“视图”,而ChatGPT的横空出世就像砸在牛顿脑门上的那个苹果,让人类对此有更强烈的认知。
这让我想起了2017年和某位朋友聊天,他问“人工智能到底对人类来说是福是祸?”——ChatGPT的发展,加上新近发布的Sora,让很多人愈发觉得人类发展站到了某个十字路口。如果拉长到一个更长的时间轴来看AI到底祸兮福兮,我们可能要把人类和人类文明的发展延续这两者分开来看AI的价值。当人类生存的这个星系不再适合文明存在时,人类文明可能只能压缩成一个信息流,发射到宇宙中另一个角落中延续发展,就像6G通信中的弱信息交互,通过AI恢复成完整信息。大模型的发展、6G的研究,这两项技术在不同的路径上各自发展,当它们交汇时,可能是更大范围的“人类种族延续”还是“人类文明延续”的观念撞击。
好像扯远了,但未来,正不均匀地分布于现在。

就像我们今天在产业中推进的数智化实践。

数据很重要

数据的重要性已经不言而喻。但数据的重要性到底表现在哪里,首先要思考数据发挥价值的先决条件。

最近有个数据营销领域的朋友计划转战东南亚,当地在前几年互联网流量红利很大,线上获客很容易,获客成本很低,几乎不需引入太多大数据能力业务就能野蛮生长;但发展到现在,互联网获客单价已经很高,仅仅通过“捞浮油”或者产品优化的方式去实现营销转化遇到很大的增长瓶颈,必须引入高水平的数据运营手段和运营人才。

数据能力是商业市场的高阶竞争。初阶竞争主要是产品设计、运营手段等方面,这个阶段打造出商业基础形态,好的产品和运营往往会有出奇制胜的效果,就像早年“余额宝”和近年快速涌现出的很多现象级产品;数据能力的引入是建立在这个商业基础之上的。有些行业或企业本身在产品和运营层面的能力还远远不足,当务之急并不在数据;只有在产品和运营方面具备相当的实力后,数据能力的提升才能带来业务的显性增长;数据能力引入后又会反向推动产品和运营能力的迭代升级——数据、产品、运营就像是三股细绳、有机组合缠绕在一起,成为一根粗绳。

从“数字化”到“数智化”

过去十多年,我深度参与了某些行业的“数字化”历程,例如某银行基于全套互联网技术建设的互联网核心系统上线后实现“线上一年、线下十年”的业务爆发力;过去几年,我和我所在的蓝象智联团队深入参与了很多行业的“数智化”项目。“数智化”是相对于“数字化”而言,“数字化“是业务流程和业务处理从线下到线上的过程,同时引入各种数据工具来提效;“数智化”则是在“数字化”的基础上,特别是在各种数据工具的支撑下,更广泛地引入多方数据来提升业务效果,让它变得更聪明。

蓝象智联团队过去几年中做了数十个“数智化”业务提效项目,例如帮助某国有大行与银联3000万中小商户数据联邦建模,使得该大行面向中小商户的“烟火贷”产品用户准入提升20%、户均授信提升30%,每天进行亿级规模放贷;帮助某些银行通过内外部数据融合,在反电诈领域更精准地识别“白手套”账户,只需处理之前的1-2%的账户,就能整体减少三分之二的可疑交易,大大节省了银行工作量,减少了对客户的不必要干扰;帮助某头部农商行引入运营商数据与本行数据融合,为无社保、公积金的用户群体提供普惠贷款服务等等。

我们参与的大部分项目都达到了预期的业务效果,但也有部分项目效果不尽如人意。除了各方数据本身的匹配度和互补性之外,机构本身“数字化”水平是最大的决定性因素。某些“数字化”不够的机构往往存在很多“最后一公里”或“断头路”的问题,即便有多方数据融合形成的优秀策略,也无法高效地通过“数字化”的手段执行,进而达到预期业务效果。

“数字化”和“数智化”就像是道路和交通工具。“数字化”基本确定了车速的上限,高速、国道抑或是乡间小道;“数智化”则是通过各种数据价值的融合,来让更多的业务达到更高的时速;当交通工具时速更高时,又反向推动道路的进化,就像磁悬浮高铁。

数据价值——“不用不知道、谁用谁知道”

2020年,国家正式将数据要素定义为第五生产要素,“数据二十条”等一系列关键政策给数据要素行业发展指明了方向,财政部也发文推动数据资产入表。在这样的大背景下,除了之前已经开放的社会型数据源,有更多的公共数据在尝试更大范围地开放,通过数据来推动经济发展。

单就数据本身来说,如果不结合具体业务,是无法体现数据价值——数据成本倒是会有的。数据只有在使用中结合具体业务场景才能体现价值,进而进行合理定价。很多时候,在数据提供方和数据使用方握手之前,往往会首先存在一个“数据价值盲盒”现象,必须通过数据探查、数据建模等一系列手段,才能评估出数据对业务的真实价值。

接下来几年,将会有大量的数据加大对行业的开放应用,特别是政务、电力等垂直行业的数据,这些数据将通过更多市场和业务场景来实现商业价值,同时数据使用方也将有机会通过这些数据获得商业增益价值,在数据新大陆中掘金。

公共数据授权运营平台GaiaC

这两年中很多银行也成立了专门的外部数据合作部门,加大数据合作力度、提升合作效率。结合之前的实践,该部门也将重点解决如何在众多数据供给方中快速确定数据价值,找到最合适的、性价比最高的数据供给问题,这也是“数智化”效率提升的关键路径。蓝象智联团队目前面向数据使用方通过“数据试衣间”、结合专业的数据经验,已经将数据价值评估周期缩短了三分之二;同时也在面向政务、垂直行业等数据提供方输出更高效、平台化的数据要素流通运营平台,从供需两方协同来进一步提效数据融合,降低数据融合“摩擦力”。

大模型——驶往春天的“高铁”

2023年全球IT行业最受关注的两件事,一个是芯片、另一个无疑是ChatGPT。近日Sora的出现几乎让整个科技圈“万人空巷”,可能会对整个影视、动画等行业产生巨大冲击。大模型俨然就是一辆是驶往春天的“高铁”,要不上车、要不留在过去。如果说既往数据和AI领域的技术进化是一步步从马车、燃油汽车到电动车,大模型则是“高铁”。就像高铁重新定义空间距离在商业距离上的尺寸,大模型也将重新定义商业、以及其他生命科学等社会领域。

大模型所引发的关注和行业震动是如此巨大,大家都在努力挤上这列“高铁”,不论是一等座、二等座还是无座票。据说前段时间美国投资界有超过半数的投资都投向了大模型方向,如此高度集中的投资之前从未出现过。

大模型在算法层面以惊人的进化效率加速演进,而且新一代的算法展现出了“弑祖习性”,就像Google发布的Gemma以更少的参数,却在性能上超过了LIama,虽然后者在参数数量上大很多。大模型对算力的消耗也是巨大的,训练过程中也需要喂更多数据。随着大模型的进一步普及,必然会出现跨地域分布式算力提供和分布式训练数据集提供。

如果说云计算实现了单域计算资源的调度和协同,AI和大模型时代对云计算的技术要求则是跨地域分布式算力的调度和协同;分布式训练数据集参与大模型训练和运算过程中,也要求进行数据隐私保护,隐私计算和联邦学习在大模型时代也被赋予了新的使命。

写在最后

数据对社会的影响是如此深远且广泛,我们很难再用同样线性的历史观去看这个被数据深入影响的社会。目前数据影响最大的是商业领域,但其他领域的影响也会接踵而至,就像大数据会影响某些国家的总统选举,后续大模型是否会通过图灵测试后带来更不可测的影响?对我们来说,唯有积极地拥抱变化、拥抱数据,才能在未来的商业以及更多领域占有更大的主动权。