高校数据治理的趋势和挑战

数据是高校实现数字化转型的关键要素。新形势下,高校数据治理呈现新的发展趋势,同时也面临着多重挑战。中国石油大学(华东)信息化建设处副处长杨爱民、华中科技大学网络与信息化办公室副主任吴驰、郑州科技学院信息化建设与管理中心主任李振峰对高校数据治理的未来方向、挑战和应对策略给出了自己的见解和思考。

1-数据治理有哪些新趋势

吴驰:数字化浪潮下数据治理需求更迫切

数据是新型教育要素,数据治理是教育数字化的基础性工作,数据治理的质量直接决定教育数字化转型的成败。在高等教育数字化浪潮的推动下,数据治理的需求更加迫切。

此外,新形势下,高等教育数据治理还呈现以下趋势:

一是范围更加广泛。“十三五”或更早期的教育数据治理主要还集中在各类教育管理数据的集中、共享和有效分析利用上,教育教学、科学研究等方面的数据较少涉及。随着教育数字化的不断深入,数据治理的范围必然更加广泛,将涉及教育的全方位、全过程、全要素。

二是治理更加深入。教育数字化的发展对于数据治理的深度提出了新的要求,除消除数据孤岛、提升数据质量、加强数据统计分析外,与业务深度融合,更加科学化、精准化、高效化、智能化、个性化、主动化的数据治理才能真正符合教育数字化转型的新要求。

李振峰:数据治理从资产目录转向生态统筹

对教育行业而言,数据治理的焦点正从关注教育数据资产目录(即“摸家底”)向数据统筹归集转变。这一转变体现在集中统一的身份认证,以及贯穿教育生命周期的数据归集、分级分类、共享、查询和输出。与此同时,教育数据治理不再局限于行业内部的治理,而是向上下游延伸,形成更为全面的生态治理。

具体而言,教育数据治理关注社会需求与人才培养的匹配度数据,并据此反向改革教育各阶段的内容、形式和格局。教育数据治理致力解决“计划招生”“国家战略”与“市场需求”之间的关系,确保三者协调一致。因此,着眼需求、因材施教将是教育数据治理,乃至教育治理的重要遵循。

对高校而言,数据治理正在走出“数据治理就是数据质量管理”“数据治理就是数据管理”等误区,更加关注与教育治理相匹配的体制机制、权责再分配、制度标准等基础性保障工作。

具体而言,高等教育治理从传统的、日益臃肿的“处室制”向适应教育现代化的“大部制”转变,从“管理职能”向“育人职能”转变,从多方位管理向五育并举、三全育人转变。相应地,数据治理也应与之呼应并相互促进,确保从数据采集、清洗、管理到赋能的各个阶段,都能明确职责权限、制度规范、标准及流程,这些都是下一步高校数据治理的重点。

杨爱民:非结构化数据治理需提上日程

随着数字技术的革命性发展,高校数字化转型已成必然趋势。高校数字化转型能否成功,学校数据是其中的关键要素。因此,数据治理成为高校数字化转型的首要任务。

高校数据治理应达到以下目标:厘清学校数据资产,不断充实学校数据仓库,不断提高数据质量,不断提升数据共享开放能力,持续提高数据应用能力,全面建成一体化数据协同治理与数据安全防护体系,打造数据集聚洼地,建设数据应用高地,以数据这一新质生产力推进学校高质量发展。

当前,高校数据治理大多是针对校务数据的治理,这类数据以结构化数据为主,且已基本完成治理。结构化数据的治理,对于打通数据孤岛,促进数据共享交换,推动部门间工作协同,提高管理工作效率,提升服务水平,推进科学决策等起到了强有力的支撑。

新形势下,一方面,要对现有的结构化数据进行深入治理,让数据从能用向好用转变,让数据与更多的业务深度融合,从而实现多向赋能;另一方面,伴随着数字校园建设,校园设施的智能化管理要求实现万物互联。而物联网的数据大多为非结构化数据,因此,对于非结构化数据的治理需提上日程。

2-数据治理面临哪些挑战

杨爱民:非结构化数据治理难度较大

非结构化数据具有格式多样性、标准多样性、数据量大的特点。因此,非结构化数据比结构化数据更难标准化,其治理难度也更大,是高校数据治理工作的一大挑战。对非结构化数据进行治理,高校需要有精通大数据技术的IT人员、高性能的服务器、海量存储、智能治理工具等基础条件。

要应对这一挑战,首先,要做好数据治理的顶层设计,统揽全局,规划好学校数据治理蓝图,明确数据治理的路径,提高数据治理效能。其次,要以需求为导向进行治理,数据治理要有所为,有所不为。对于有现实应用场景的数据,要进行深入治理;对于暂时还没有应用需要的数据,可以先不治理。为提高数据治理效能,不建议盲目对学校的全部数据进行治理。

吴驰:治理不平衡、不充分的矛盾普遍存在

当前高校数据治理面临多重挑战:

一是治理不平衡、不充分的矛盾仍普遍存在。高校各板块、各部门的信息化、数字化建设仍存在不平衡、不充分问题,从整个高校的角度看,数据完整性、准确性的问题还普遍存在。

二是治理体系建设仍有不足。大多数高校在数据治理上还面临顶层设计不足、管理制度缺失以及缺乏有效的落地手段等困难,体系化的数据治理仍不多见。

三是数据安全风险不容忽视。习近平总书记指出:“网络安全和信息化是一体之两翼、驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施。”如何将“四个统一”有效落实到数据治理全过程,从管理和技术上既实现数据的高质量利用又保障数据安全,仍是高校面临的普遍问题。

李振峰:从宏观层面审视数据治理挑战

高校数据治理挑战是一个老生常态的话题,不过人们在讨论时,往往将问题更多聚焦于技术层面。

我认为,以下几方面的挑战同样不容忽视:

一是认知偏差。认知偏差导致高校的数据治理混淆了重心和落脚点,误把治理落脚点当成治理的全部或者治理的重心。

二是制度失调。现有的制度标准规范与体制机制不协调,导致治理体系很难正常运转。

三是成效有限。数据治理效果不明显,可感知的输出有限,导致很难维系持续的治理。

四是价值矛盾。数据价值挖掘与合法合规使用数据及数据的伦理约束之间存在矛盾。

近年来,各高校在开展数据治理实践时,不难发现,仅仅依赖数据清洗等单一手段来推进数据质量治理,效果难以为继。在治理过程中,往往“盯得紧”时效果就好一些,一旦“盯不紧”或“换人管”,数据治理就又陷入“一团混沌”。没有切实的体制保障、制度保障、硬性标准、规范约束,很难实现治理的常态化、自动化。

面对这些挑战,我认为,要从宏观层面审视数据治理,而不能仅关注局部数据质量的治理。例如,在讨论数据赋能时,人们普遍认为,教育数据不准、采集维度不够、维护不及时等数据质量问题,以及基于数据开展的学科评价、人才评价等模型不完善,是导致数据价值难以有效展现的原因。

然而,从更宏观的视角看,人才评价、学科评价、专业评价等对应的模型需要哪些维度支持,受到哪些因子影响?需要采集哪些数据,各项数据所占比重如何?这些都需深入研究、实践、印证和不断修正。因此,体制机制改革必须先行。只有适合学校的标准规范建立健全,教育行业模型进一步完善,才能实现数据的价值赋能。

3-如何确保数据安全可控

吴驰:用制度管住人、用技术管住数据

高校数据安全防护有以下几重难点:

一是教育行业的数据安全顶层设计亟待完善。数据安全的基础是数据的分级分类,虽然目前国家层面已制定了数据安全的法律法规和数据分级分类的指导性文件,但具体在教育行业尤其是高校如何落地,尚没有明确的行业标准类文件。

二是相关制度规范落地还需要进一步细化。数据分级分类从制度层面到实际落地的过程,其实是一个静态到动态的过程,需要更加细化的行业标准和操作指南。

三是适合高校数据安全的技术平台尚显匮乏。从华中科技大学对市场现存的数据安全防护平台测试看,真正符合高校特点和需求的产品尚显匮乏。

四是师生数据安全的防护意识有待进一步提高。数据安全防护涉及数据的全生命周期,是一个典型的“技防+人防”“技术+管理”的过程,师生数据安全意识也是决定防护水平的关键因素。

确保数据安全可控,要建立全方位、立体式,管理和技术深度融合的安全防护体系,做到用制度管住人、用技术管住数据。

杨爱民:数据安全要事前防范 事后审计

当前,数据安全形势日益严峻。伴随高校数字化转型的推进,海量数据的收集、存储、传输、处理、使用等工作日趋繁重,数据安全工作环节多、技术要求高。如何确保在每一个工作环节都做到数据安全可控?个人信息如何保护?数据安全防火墙如何构建?

数据安全专业人员如何培养?这些都是摆在高校数据治理前面急需解决的课题。

数据安全无小事,高校必须高度重视,相关从业人员要加紧学习,制定体系完善的应对措施,努力确保数据安全万无一失。

高校数据安全防护的难点主要有以下几个:数据库系统漏洞的及时发现;数据分类分级的进一步完善;数据交给第三方公司用于开发业务系统时数据的安全;数据在传输过程中的安全;系统之间通过数据接口获取数据的安全;容灾和备份数据存储的安全。

要应对数据安全挑战,确保数据安全可控,第一,要有精通数据治理和数据安全的专业人员,通过高素质的技术人员确保数据安全;第二,要购置确保数据安全所必须的数据安全防火墙,通过技术手段确保数据安全;第三,要有严格规范的数据安全规章制度,通过管理手段确保数据安全。

在实际工作中,要确保数据安全,必须做到事前有防范,学校须对重要文件数据进行加密,让外人即使拿到数据也无法读懂;事中有管控,通过数据库防火墙等技术手段阻断敏感数据外泄的可能;事后有审计,通过数据安全信息化平台提供数据操作统计报表及行为记录,发现和追溯泄密事件。

李振峰:平衡数据价值挖掘与隐私保护

数据治理的挑战之一是数据价值挖掘与隐私保护之间的平衡,数据价值挖掘要在合法合规、遵循伦理约束的前提下进行,如同发展与安全的平衡关系。其中,以下几个难点尤为突出:

难点一,数据对于不同用户呈现的价值不同。例如,数据A对一部分人来说蕴含丰富的信息,对另一部分人可能只是普通数据。因此,制定统一的数据安全防护标准非常困难。

难点二,数据价值输出的领域不同,对数据颗粒度的要求也各不相同,很难设置统一标准的“防护堤坝”。例如,对于生物特征数据的识别,用户可能不希望提供过于详细的生物特征,而系统则要求尽可能精确的数据,需要找到隐私与精准度之间的平衡点。

难点三,应用于公共服务的价值输出和针对个体成长赋能所需的数据维度和数据深度不一致,加大了数据的防护难度。例如,面向某类人的学习行为分析,需要对个体数据进行匿名化处理,按统计学方式进行定性分析,甚至可能需要对公开的数据甚至进行信息掺杂;而针对个体的异常行为分析,如学生体测数据、心理健康问卷数据及校内行为轨迹数据,则需要定向、保密处理。

要确保数据安全可控,我认为,要对数据的防护进行更细致的颗粒度划分,字段级的防护是有必要的。同时,数据使用的流程必须严格执行审批制度。必要时,数据拥有者、数据管理者需同时确认数据的使用许可。如果可能,应设置数据管理委员会,因特殊原因需要使用敏感、隐私数据时,必须经过委员会的授权。数据使用结束后,应及时销毁。