本文转发自澎湃新闻科技频道头条
●大模型和数据治理是一个闭环,不断迭代,两者互相依存。目前没有比大模型更加高效的数据分析和挖掘方法。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。
●“我们经常讲‘人与数据’的概念,即所有的数据都是人产生的,所有的问题也是人造成的,如果不把人的关系理顺,数据是管理不好的。所以这个挑战是之前的挑战、现在的挑战,也是未来的挑战。”
【编者按】数据,是继土地、劳动力、资本、技术四大生产要素之后的第五大生产要素,中国政府已提出要加快培育数据要素市场。随着人工智能技术的飞速发展,大模型的开发更离不开高质量的数据支持。在此背景下,澎湃科技(www.thepaper.cn)推出“第五要素——上海市数据科学重点实验室数据要素产业化系列报道”,关注由上海市数据科学重点实验室策划的数据要素产业化系列论坛。第一期数据治理论坛主要聚焦数据治理的最新动态和前沿趋势,探索数据治理的规则与边界。
数据要素产业化系列论坛第一期“数据治理论坛”现场“我们在进行数据治理的过程中,遇到了两个挑战:第一,数据多而分散,质量参差不齐,数据治理难度大;第二,不同粒度的数据难以有效融合,行业知识和中观数据(即行业、部门数据)价值被低估。”10月8日,在数据要素产业化系列论坛第一期“数据治理论坛”主旨演讲环节中,蚂蚁集团网商银行算法专家潘岩分享了网商银行在数据治理过程中遇到的挑战。
光明食品集团数据治理高级经理雷晓川则从自己的经验出发总结称,数据治理单纯依靠技术无法解决,其中管理和沟通占据70%以上的工作,特别是传统行业大型集团型企业,IT系统差异大,业务和组织复杂度高,需要数据治理人员加倍耐心与各层级各条线沟通,深入理解业务,以布道者和服务者的姿态逐步推进数据治理的深入。
香港科技大学潘奥托工程学教授及计算机科学与工程讲座教授周晓方在其主旨演讲中指出:“AI大模型能够赋能数据质量管理。虽然大模型本质上是一个统计模型,很容易产生不稳定性,数据库要求可控和可解释,但这个矛盾可以通过知识图谱和向量数据库来缓解。”
中国人民大学数据工程与知识工程教育部重点实验室教授范举则提到:“数据融合与清洗是数据有效利用全流程中的核心任务之一,也是未来大模型(LLM)可以赋能的一个重要领域。”数据融合与清洗是指将多源多模态数据整合为统一的数据视图,并发现与修复数据中可能的错误(如数据不一致、缺失值等),从而提升数据的整体质量,更好地释放数据的价值。
上海市数据科学重点实验室主任、复旦大学教授肖仰华随后主持圆桌环节,专家学者和企业家更为深入地讨论了数据治理当前面临的挑战,如何应对这些挑战,以及大模型在其中可能发挥的作用。
以下为圆桌实录,有部分删减。
肖仰华:在数字经济和大模型快速发展的背景下,数据治理新的挑战有哪些?阿里数据流通与治理平台算法总监及负责人刘洪:在我和我的团队以及业界的一些朋友交流后,我可能更悲观地认为,数据治理还是非常传统。为什么传统?因为不重视,而不重视的原因是我们对数据治理的认知是有问题的,大家还是把数据治理等同于传统的数据清洗。在这样的认知下,在公司里除非被迫,如老板要求服务器成本必须降,才会有人去做这件事。这就变成了一种硬性指标,缺乏原生的驱动力,而是被动去干“脏话累活”。如果把数据治理等价于脏活累活,那这个领域怎么可能有很好的发展呢?
两年前我们在思考,未来的数据治理应该是什么样的。我们当时就提出来数据治理要安全合规、清晰透明,公平多样、高质高效,这四个最为根本。于是你会发现,任何一个领域只要抓到最根本的这四点,它永远都有很强的技术力,因为它有很多问题需要解决。当你把这个事情想清楚,数据治理就不可能是一种很低价值的事情。
蚂蚁集团网商银行算法专家潘岩:我非常认同刘老师的观点。实际上我在具体项目里也发现,比如老板给一个项目且要求今天做完,那么你一定不会想先去做数据,首先想到的是先做出一个能上线的模型。所以对数据的不重视是数据治理的一个最大问题。另外,可能也是有心无力,尤其是大企业,其历史发展时间太长,以往的一些代码产生的问题数据没办法丢掉,只能在其错误数据基础上不停迭代,但其实应该是有办法做好数据治理的。
蜜度科技微热点研究院副院长王昉:目前对企业来说,数据很多情况下都是封闭的,存储在自身企业数据库中,只服务于目标客户。但如果数据开源化,企业会面对更多的数据,数据的流转速度也会更快,所以在数据的安全性和合规性方面都有更高的要求。比如我们在加入大模型语料数据联盟(今年7月,上海人工智能实验室等单位在世界人工智能大会开幕式上联合发起的中国大模型语料数据联盟宣布成立)时,第一批计划发布的开源文本数据集“蜜巢·花粉1.0”准备了超过1亿条数据,但出于在安全性、合规性上更谨慎的考虑,经过层层筛选审核,最终只发布了7000多万条。此外在考虑数据开放时的一个新的挑战是有需要前瞻性判断,比如有些单点数据看上去没有什么敏感性,但如果将批量数据结合起来看,如政务数据,按照时间轴去看可能会透露一些重要的信息,国外现在有很多开源情报机构会利用这些数据专门研究其他国家的政策或长期走势。所以我们在开放数据的时候需要提前做出判断。
StartDT(奇点云)合伙人、资深战略咨询专家何夕:数据治理可以分四个层级来看,第一层是战略问题,第二层是结构问题,第三层是机制问题,最后才是技术问题。
首先是战略问题。现在大部分公司其实是以物质生产为基础,即公司的所有框架都以物质生产消费为基础,比如车企基本就是研发、制造、流通、销售。互联网公司构建的体系是以数据生产和消费为基础,比如字节跳动的整个商业模式以算法为中心,从设计算法,收集数据,迭代算法,最终产出业绩,从而将数据生成和消费提升到战略级部署。目前当很多企业的战略开始从以商品为中心转到以客户为中心时,其面对的第一个战略问题即——要采集什么数据,要产出什么样的结果。
第二层是结构问题,及业务、技术和组织的匹配性问题。在企业,如果不能让业务成绩变成可衡量的内容,不管治理得多好,企业也很难认可你的工作。所以在企业,大部分数据治理的项目都是以给高管做驾驶舱为开端,这是一个可见的、典型的代表。其次技术上存在一个碎片化供给和碎片化消费的问题。供给需求,即在对接系统时,比如SAP(企业管理解决方案的软件),每一家企业存在的问题都不一样,前端对接数据源时也可能千奇百怪。因为在中国有很多标准,所以很难对接数据,每一家都有各种谈判和商务性的问题。
第三层是机制问题,即建立什么样的标准和流程,用什么方式去实施管理动作的问题;第四层是技术问题,即平台需要具备什么样的功能,需要在平台上沉淀。基本上数据治理的复杂性就在于层层都有问题,层层都要解决,任何一层解决不好都会导致最后没有产出。目前国内数据治理做的不好还是因为“不够痛”,第一是数据量太少,根据以往经验,一般公司只要数据用起来,数据的增长速度在一年涨一倍、两年涨三倍、三年涨七到九倍的范围。一旦数据开始增长,会出现存储费用高的问题,这时企业会意识到必须要做治理、降成本、做运维。另外,数据治理还有一大挑战,是任期问题,即数据治理工作能否被长期坚持。
兰迪律师事务所高级合伙人、兰迪数字经济团队牵头人丁学明:首先和大家分享3个数据:30万、1亿、10亿,去年7月,上海疫情解封后的第一个月,上海数据交易所的交易额是30万人民币,截至去年年底上海数据交易所一整年的数据交易额是1亿人民币,今年(2023)上海数据交易所的交易额目标是10亿。
我们律所作为上海数据交易所的合规服务商,参与部分数据产品挂牌的合规审核服务,在我看来,从法律角度也存在一些阻碍数据市场要素发挥作用的瓶颈,下面我给大家简单汇报一下。
第一类,企业数据的合规流通利用,即企业运营过程中产生的数据。这些数据如果做合规性检查,只需判断有没有核心数据和重要数据,如果没有这样的数据就可以进行交易,因此来说,企业数据的流通利用法律障碍相对较少。但法律上的障碍少并不代表企业的交易意愿高,大部分企业不愿意交易自己的数据。仔细研究在上海数据交易所里完成交易数据的主体,他们大部分交易的不是自己的数据,而是自己的能力。因为目前企业最大的顾虑在于,数据是其核心竞争力的一个表现,如果将核心竞争力拿出来交易,它们就失去了竞争力,本质上是担心目前的交易环境无法保证数据交易后的安全。
第二类是个人数据的合规流通利用。个人数据在很多行业具有较大价值,例如在广告行业、金融行业,个人数据可以用来精准营销,也能精准风控,比如任何一家贷款应用程序(App)都会根据个人数据进行额度设定。但我个人理解我们现有的个人信息保护法是不鼓励个人数据的交易,为什么这么说?这涉及个人数据对外提供或者共享的合规要求。个人信息处理者如果收集个人信息并要将这些数据传输给另外一家合作企业,需要得到平台用户的同意,但在实际的应用场景中,如果要和多个公司做交易,改变生意伙伴,就需要平台用户频繁授权,这对用户体验很不好。更重要的是,很多个人信息无法很便捷地接触到授权场景,比如医院,医院刷卡的设备是无法弹窗提示要求授权的。
第三类是公共数据或政务数据合规流通利用,有调查显示,对整个数据交易市场来说,接近80%的优质数据在政府手中,这些优质数据才是市场上数据需求型企业特别想要的数据,但直到目前为止政务数据的开放存在两个问题。第一是立法的问题,即有没有一个上位法(按照法的效力位阶可分为三类,即上位法、下位法和同位法)来规定公共数据或政务数据的开放规则或者授权运营规则,只有部分省市在小范围的试点,但目前没有看到明显的效果。第二是提供方式上,很多人期望政务数据在保护个人隐私和确保公共安全的前提下直接开放原始数据,这样才能刺激对数据的创新利用。而不是以模型、核验结果等产品和服务等形式向社会提供。但目前主流的观点是,公共数据或政务数据要确保“原始数据不出域、数据可用不可见”。所以政府数据到底应该怎么用,有没有一个广泛接受的标准,目前还没有明确。
全球数据要素50人论坛专家、DAMA数据管理专家马欢:我觉得数据治理的挑战不是新形势下才出现的,而是一直以来都存在的。虽然数据治理经常会被认为有点基础,但其实治理这个词本身是个非常高级的词。治理和管理这两个词在国内外都有层次上的差异。治理本身属于管理的一部分,但我们现在把治理这个词用得太频繁且用错了语义,把一些基层管理数据的工作也叫做治理。所以听的人也云里雾里,好像数据治理工作感觉很高级,但实际做的事情又很基础。所以我觉得是对治理这个概念没有理解清楚,首先我们需要把这个词的概念扭转过来才能更名正言顺地谈论这件事。
第二,治理这个词本身关注的是人,具体的数据怎么管是在此基础上再考虑的事情。我们经常讲“人与数据”的概念,即所有的数据都是人产生的,所有的问题也是人造成的,如果不把人的关系理顺,数据是管理不好的。所以这个挑战是之前的挑战、现在的挑战,也是未来的挑战。
另外,刚才提到互联网公司的成本治理,为什么他们会做这样的成本治理,因为其存储的数据多、各种备份多,磁盘量大,如果数据用的次数多了,成本就会翻倍,所以要求降低成本,这个属于业务上的驱动。当真的有这样业务上的驱动时,才是真的在做数据治理。如果没有业务驱动,大家只是在耍花枪打花架子,有业务驱动了,需要降本增效的业务要求,才真的是治理和业务并行。这也是我们强调的一个理念,数据治理不是单独的一件事情。
上海市数据科学重点实验室知识工场执行副主任,复旦大学计算机科学技术学院研究员、博士生导师李直旭:在高校做数据治理研究需要注意两方面的问题。第一是高校本身没有真实的数据和场景。如果高校真正要做关于数据治理方面的研究,并且将研究成果落地,需要和企业合作,了解相关的业务以及内部的逻辑。如果单纯从研究层面说,目前很多高校的数据治理研究可能还停留在基于公开数据集的学术探索层面,但是企业的很多实际问题是在开源环境下并不容易解决的,更多的解决方案要在闭源环境下进行。所以,当前高校的数据治理还要和企业进行更深度的合作。
第二是数据治理人才的培养体系。数据治理其实是一个很综合的问题,涉及到技术、管理、经济、法律等一系列学科知识,但是高校各个学科的培养体系是独立的。目前高校也在提倡交叉培养、交叉融合,而数据治理这个方向本身也值得做一个交叉方向,为企业未来输送更多的数据治理综合性人才。
肖仰华:数据治理难在其是系统工程,涉及企业的方方面面,包括技术、组织、战略、结构。目前以ChatGPT为首的大模型席卷一切,似乎给数据治理的相关研究带来了一些希望。ChatGPT能够发现数据中存在的隐私、合规等问题。那么人工智能和数据治理深度结合的过程中有哪些机遇和挑战?刘洪:目前虽然GPT-4(OpenAI研发的大语言模型)的表现已经惊艳世界,但它还有很多能力没有被解锁。大家虽然都知道大模型其实就是一种编码器,把世界的知识编码到一个信息体中,但如果想把如此庞大的东西释放出来,实际上我们也不完全知道怎么去解码,所以才出现各种指令微调、示例学习等方法。但很奇怪的一件事是,大家更多专注在怎么建大模型,却很少聊怎么去用,或者说怎么解码、利用这些大模型的能力,我认为这是一个有问题的地方。甚至大家会觉得用一些方法从大模型里得到一些非常好的prompt(提示词)从而对模型效果带来极大的提升,这样的工作只是一种trick(雕虫小技),这种观念我觉得是有问题的。大模型做出来就是这么一个信息体,并不需要满世界的人都去做大模型,就应该百花齐放地让大家从中解码出不一样的东西,比如生成prompt用于自己的下游应用,生成更高质量的示例等。
所以我觉得首先第一个观念的转变是从编码到解码。目前学术界也开始从大模型的建设转向大模型的应用或解码方面,我觉得这样会发现更多有价值、可以直接应用的内容。因为哪怕能做出一个千亿万亿参数的大模型,对一个小公司来说,把这个方法传给它,它也是做不起来的,但
“如何从GPT-4中解码出你想要的东西”这个问题的答案对它的帮助远大于前者。可是现在学术界聊这个问题的场景不多,但这个东西对企业的价值又是极大的。
第二个转变是我们现在做多模态大模型时发现数据并不是越多越好。比如我们做的文生图大模型,第一个阶段大概花了将近3个月的时间,除了15天的大模型运作时间,其他时间我们都是在做数据。之前可能觉得只要数据有图片有文本就灌进去,但这次我们在思考到底什么应该喂进去,什么不该喂给大模型,我们不希望“一颗老鼠屎坏了一锅粥”。所以什么不该喂进去是很重要的,而且是很难的。刚开始我们不知道数据不能全灌进去,大模型是有不该吃的东西的,也不知道大模型需要什么样的数据。但到底哪些数据是大模型不需要的,这不是一个技术问题,这涉及到法律、伦理、合规等方面,所以我们要在语料层面定义出大模型不该要的数据类型。并不是说图片喂给大模型越多越好,因为有些图片是不好的,只会让大模型画出不好的东西。为了解决这个问题,我们要在数据治理层面找到好的数据,强化好的数据。我觉得现在大模型对数据治理是一个比曾经KPI(关键绩效指标)更有力的推动力,因为不做数据治理大模型的效果可能就不会好,这是一种内生的驱动。另外我想强调一下,数据治理真的要发展,恰恰应该是要从高校设立一个学科开始。
潘岩:在实践中我们发现大模型可以产出一些让人惊喜的东西,比如一些认知或超过你认知的一些观点,但是对于客户来说它还是不足的。所以我理解如果用大模型服务数据治理,关键在于能不能让大模型理解我们自己的客户。因为企业数据是在企业自己的业务过程中产出的,它包含了这个业务背后的知识和一些约定俗成的东西,这些大模型未必能够理解。所以我觉得大模型其实在世界知识需求较多的任务上表现较好,但在一些领域知识需求较多的任务上表现较差,这也是为什么我们要做一些额外工作。但这也涉及到另外一个问题,我们在做领域内的监督微调时,本身也涉及到数据配比、数据治理这些问题,所以这像是一个循环。其实在大模型出现之前,吴恩达(斯坦福大学教授)也提出过一个概念“DCAI”,即以数据为中心的人工智能,他的视角不是研发一个很牛的模型架构,而是从数据出发找到模型的问题,或者研究一些样本的配比。我觉得这和现在的情况有些异曲同工的地方,可以结合起来看,可能是未来的一个方向。
李直旭:首先,大模型是最典型的以数据为中心的人工智能系统。从GPT-1到GPT-4在基本预训练技术层面并没有特别大的变化,但是数据类型和数据量却显著剧增。所以大模型是一个以数据为中心的人工智能思想的集大成者。其次,大模型和数据治理是一个闭环,是一个不断迭代的过程。目前没有比大模型更加高效的数据分析和挖掘方法,虽然大模型现在有缺陷,但是通过不断提供更高质量的数据,可以让大模型成为行业专家,更好地帮助人去理解行业数据,做好行业数据的治理。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。所以人工智能和数据治理是互相依存的关系。
肖仰华:数据治理不是简单的技术问题,和各种生产要素、法律法规、标准制定、社会责任、国际合作、跨境流通等都有关联。如何理解数据价值,以及制度设计和数据治理的关系?王昉:企业更关心数据价值。我们最开始提供给用户的标准化服务是SaaS(软件运营服务)服务和人工报告服务,数据会作为基础来辅助报告生成和图表分析。目前越来越多的政企客户需要非常精准的数据,所以需要我们对数据进行处理再提供给客户。比如一些政府机构的数据无法公开,当我们把一些开源数据推给他们后,他们会结合自己的数据进行整合,然后放在服务器上形成一个综合的数据中台,这样就可以为实际应用场景做一些更落地的服务,比如指挥大屏、数据流转平台等。这对于数据治理的要求也会更高,比如有些单位需要其辖区内的数据,但“辖区”的定义很广泛,是数据源属于辖区、事件属于辖区,还是微博定位辖区,所以这对数据治理的精准度有更高的要求。
何夕:关于数据价值有两个维度,第一是算成本,在企业内部来说,数据治理被认为“脏乱差”是因为产出不可见,无法算清楚投入和产出。当然这个产出不仅仅是经济性的产出,现在不管是学界还是业界都没办法把这个问题解决得很好,我们在实践中做的比较多的是建立一套质量指标和健康度指标,通过治理前后的对比,成熟度的提升,让数据治理效果可见化。目前数据治理做的比较好的企业都有一个分析师团队,专门负责把数据平台里的所有元素做分析,看整个平台可改进的空间在哪里,分析投入产出比。
第二,数据有个很重要的特性——没有用之前不知道它有没有用,这需要一个小的使用过程即POC(概念验证,是对某些想法较短而不完整的实现,以证明其可行性)。但目前存在一个问题,公共交易背景下,谁来出POC的费用?这涉及到很多投入问题,同样也涉及到数据治理问题。比如有些企业在做数据变现时,它的治理维度并不是其客户所需要的维度,需要另一个方式的治理,但问题在于这个治理的费用由谁出,而这些公共投入又难以算清楚。
马欢:在ChatGPT刚开放时,我做了一个小实验,问了它一个很小众的问题,一开始它给的答案其实不是我想要的,我就跟它说它说的不对,然后再问它的时候它给的就是我要的答案了。所以当大模型这样一个东西出现时,如果我们在使用它的时候没有一个规范,就会像一些物品既能用作药品也能是毒品一样。如果没有制度规范、没有AI版权法之类的规范,那么大模型可能是人类毁灭的一个征兆,所以我觉得最先要做的事情是制度设计。本期数据治理论坛由上海市数据科学重点实验室、中国数据管理协会(DAMA China)主办,澳汰尔工程软件(上海)有限公司、澎湃新闻以及DataFun社区提供支持。出品人分别为上海市数据科学重点实验室知识工场执行副主任、复旦大学青年研究员李直旭,全球数据要素50人论坛专家、DAMA数据管理专家马欢,上海市数据科学重点实验室主任、复旦大学教授肖仰华。
往期推荐
知乎的缓存加速:Presto的进化实战(长文解读)
阿里巴巴数据模型设计与构建实践
AI基础软件:如何自主构建大+小模型?
B站数据质量保障体系建设与实践
轻松利用日志动态分析平台玩转Nginx运维管理
开源数据库 MatrixOne 的 HTAP 分布式架构演进
数据湖与实时数仓应用实践
探索大模型技术在自智网络方向的应用前景(推荐收藏)
广告策略系统设计(文末赠书)
Abase2: NoSQL数据库中的CRDT支持实践
国产开源湖仓LakeSoul–数据智能的未来方向
网易大数据智能运维平台 EasyEagle
(一文读懂大数据行业)-面向百度商业数据产品的全流程 DataOps 实践
阿里巴巴数据稳定性治理实践