开篇导语:
本期新增术语新词:密态数据库(Encrypted Database)。密态数据库是将数据转成密态数据进行存储并对密态数据进行管理的数据库管理系统,是数据库系统与加密技术、数学算法深度结合的产物。
密态数据库(Encrypted Database)
作者:柴成亮 刘佳斌(清华大学)
InfoBox:
中文名:密态数据库
英文名:Encrypted Database
实质:存储和管理密态数据的数据库管理系统
学科:计算机科学与技术
背景:
伴随着《数据安全法》及《个人信息保护法》的颁布和实施,数据安全问题,特别是个人隐私数据保护问题受到了越来越多的关注,其中以政企、金融、健康等行业为例对数据安全问题尤为重视[1]。数据安全保护主要考虑数据机密性、完整性及可用性,最简单常见的数据安全保护方法就是数据加密,数据以密文形态进行传输和存储,在使用时再进行解密。由于每一种形态都需要独立的加解密方案,导致系统整体数据安全保护方案复杂度高,且数据形态的转换同样会引入安全风险,特别在数据运算形态下。因此,需要设计一种具有统一形态的安全方案解决数据在存储、传输、运维及管理状态下的安全。2002年,Hacigümüş等人第一次在数据库系统中讨论密态数据处理思路[2],密态数据库开始受到广泛的关注,其中密态数据是指明文数据经安全加密算法加密后所获得的数据,不经解密无法解读其中的信息[3]。
定义:
密态数据库是指存储和管理密态数据的数据库管理系统,数据以加密形态存储在数据库中,其中数据存储、计算、检索、管理均在密文形态下完成,而与数据库管理相关的语法解析、事务ACID等能力均集成传统数据库能力。密态数据库是数据库系统与加密技术及数学算法深度结合的产物。密态数据库的核心任务是保护数据全生命周期的安全,并支持密态数据的检索和计算[4]。
挑战:
密态数据库存储密文,由于大多数加密算法破坏了明文数据的原有特征,包括顺序特征、关联特征以及数据类型等元信息,使得数据加法运算、乘法运算、比较运算以及聚类运算都变得异常困难。因此,密文形态下的数据查询分析面临着众多挑战:(1)密文空间膨胀,数据加密后可能会引发数据空间膨胀,且不同查询目的加密算法不同,空间膨胀率也存在差别,空间膨胀增加存储开销和通讯开销,进而影响查询效率;(2)密文查询复杂度高,加密算法要么仅能保留部分数据特征使得支持的操作有限,要么虽可同时支持加、乘但算法性能完全不可商用;(3)可信硬件推广成本高,基于可信硬件方案虽可有效兼顾密文运算操作及运算性能,但存在硬件价格高昂、系统适配性强以及系统复杂度搞等问题,且可信硬件存储能力及计算能力有限[5,6];(4)密态查询接口可迁移性低,密态数据库在应用时序考虑应用可迁移性,避免应用层过多改造而带来系统整体复杂性提升。
综合而言,设计一款易用高性能的密态数据库需要同时考虑算法安全性、存储开销、查询速度、运行效率、管理便捷性等关键指标,因此需要全面优化或重新设计密态数据查询接口、密态数据查询解析器、密态数据查询优化器、密态数据索引和密态存储引擎等关键组件[7],系统整体设计复杂度极高。
发展:
密态数据库能够为数据提供全生命周期安全保障,有效保护数据机密性和数据完整性,全生命周期数据安全技术可让企业具备技术领先优势和市场竞争优势。当前,包括微软、华为等在内的传统数据库服务提供商及Crypteron等新兴厂商纷纷提出了自己的密态数据库产品,而学术界也在保持对密态数据库研究的热度,如TrustedDB,CryptDB等[5,8]。2016年,微软首次在商业数据库中提出全程加密(Always Encrypted)技术,该技术可支持密态等值查询,其在2020年进一步提出基于可信硬件方案的密态数据库方案并迁移至Azure[9]。同年华为在HC大会发布全密态数据库解决方案并于2021年在openGauss社区开源全密态数据库第一阶段技术方案,实现首个应用迁移透明的密态数据库方案。同时华为也公布了其基于GaussDB的软硬融合全密态数据库计算架构,即结合密码算法(即软件模式)和可信执行环境(即硬件模式)的优点,不仅保证了密文数据操作的安全性,也保证了查询执行的效率[10]。
参考文献
1. Saleh E, Alsa'deh A, Kayed A, et al. Processing over encrypted data: between theory and practice[J]. ACM SIGMOD Record, 2016, 45(3): 5-16.
2. Hacigümüş H, Iyer B, Li C, et al. Executing SQL over encrypted data in the database-service-provider model[C]//Proceedings of the 2002 ACM SIGMOD international conference on Management of data. 2002: 216-227.
3. https://www.techopedia.com/
4. “Transparent Data Encryption with Azure SQL Database”. https://docs.microsoft.com/en-us
Theoretical Computer Science, Vol.211(1–2), 253-273, 1999.
5. Popa R A, Redfield C M S, Zeldovich N, et al. CryptDB: Protecting confidentiality with encrypted query processing[C]//Proceedings of the Twenty-Third ACM Symposium on Operating Systems Principles. 2011: 85-100.
6. Puttaswamy K P N, Kruegel C, Zhao B Y. Silverline: toward data confidentiality in storage-intensive cloud applications[C]//Proceedings of the 2nd ACM Symposium on Cloud Computing. 2011: 1-13.
7. Zheguang Z, Seny K, Tarik M, et al. Encrypted Databases: From Theory to Systems[C]. CIDR, 2021.
8. Bajaj S, Sion R. TrustedDB: A trusted hardware-based database with privacy and data confidentiality[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 26(3): 752-765.
9. Antonopoulos P, Arasu A, Singh K D, et al. Azure SQL database always encrypted[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 1511-1525.
10. Zhu J, Cheng K, Liu J, et al. Full Encryption: An end to end encryption mechanism in GaussDB[J].
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。
术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。
新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。