avatar avatar 我的文献 基于机器学习的数据库技术综述 单位 清华大学计算机系 期刊 计算机学报 时间 关键词 数据库; 机器学习; 强化学习; 深度学习; 查询优化
摘要
大数据时代下,面对不断膨胀的数据信息、复杂多样的应用场景、异构的硬件架构和参差不齐的用户使用水平,传统数据库技术很难适应这些新的场景和变化。机器学习技术因其较强的学习能力,逐渐在数据库领域展现潜力和应用前景。论文首先给出一个高效、高可靠、高可用、自适应性强的数据库系统需要涵盖的方面,包括数据库运维、数据存储、查询优化等。其次,讨论机器学习算法与数据库技术结合过程中可能面临的挑战,包括训练数据少、训练时间长、泛化能力有限、适应性差四个方面。然后,综述数据库技术与机器学习结合的现状以及具体技术。其中,重点介绍数据库自动调参、查询基数估计、查询计划选择、索引和视图自动选择五个方向。自动调参技术包括启发式算法、传统机器学习、深度强化学习三类。启发式算法从离散的参数空间中通过抽样探索最优子空间,可以有效提高调参效率,但是难以保证在有效资源限制内找到合适配置;传统机器学习算法在经过降维的参数空间中学习系统状态到指定负载模板的映射关系,一定程度上提升模型的适应性;深度强化学习在高维参数空间中迭代的学习调优策略,并利用神经网络提升对高维数据的处理能力,有效降低训练数据的需求。查询基数估计包括面向查询和面向执行计划两类。面向查询方法利用卷积神经网络学习表数据、查询条件、连接条件之间的关系,然而在不同场景下需要大量训练而且泛化能力差;面向执行计划方法在物理算子层面做级联的代价估计,一定程度上提高对不同查询的适应能力。查询计划选择包括深度学习和强化学习两类。深度学习方法融合数据库估计器的代价值和数据特征,提高对每种计划代价估计的精度,但是结果严重依赖估计器的表现;强化学习基于最终目标迭代生成查询计划,降低方法对查询代价的依赖性。自动索引推荐包括分类器、强化学习、遗传算法三类。分类算法根据离散的表特征分析不同索引的创建开销和效率,通过结合遗传算法,提高对复合索引的推荐效率;强化学习进一步提供增量式索引推荐的效率,实现在线索引选择。自动视图选择包括启发式算法、概率统计、强化学习三类。启发式算法通过在视图构建的有向无环图上做贪心探索,提高选择效率,然而适应性差;基于概率统计的算法将视图选择形式化成一个0-1选择问题,有效降低图的探索开销;强化学习方法将视图的创建和删除统一成动态选择过程,基于强化学习的训练策略进一步提高选择效率。最后,从八个方面展望机器学习将给数据库带来的革命性突破。
下载 浏览 cnki {{liketext}}
©2020 - iData {{ message }} 关闭