|
演讲简介
数据爆炸式的增长使得数据库需要应对的性能压力越来越大,同时越来越复杂的应用场景要求数据库具有高度的灵活性。近些年来深度学习的兴起带来了人工智能赋能万物的浪潮,从去年开始以GPT为代表的大模型又大大激发了人们用大模型赋能万物的热情。本报告将分析机器学习和大模型对数据库的影响以及数据库对二者的支持。首先针对机器学习,本报告首先分析机器学习在解决数据库问题时的适用场景、问题抽象和相关技术进展;另一方面,本报告分析了在机器学习任务执行前、执行中和执行后数据库所起到的支持作用。其次针对大模型,本报告首先总结大模型能够应对的数据库问题,其为查询语句生成、数据库参数调优、数据生成、查询优化等问题的解决提供了新的思路,节省了在复杂场景下人力成本;另一方面,大模型在实现时的基本数据类型是向量,如何在数据库中支持大规模的向量操作是亟待解决的主要问题。总体来说,人工智能给数据库提供了更多的可能性,能够提高数据库的稳定性、可靠性和性能,降低人力成本;另一方面,数据库为人工智能任务提供了贴近数据的处理功能,在减少数据移动成本的同时提供了更加丰富的功能。
关于讲者
清华大学信息国研中心副研究员。清华大学计算机系学士、硕士和博士,剑桥大学博士后,中国计算机学会信息系统专委会常务委员,计算机学会高级会员。研究方向为数据管理,包括数据生成、数据增强、数据组织和存储。主持及参与了多项国家重点研发计划、新一代人工智能重大项目、973、863、科技支撑计划、自然基金、铁道部基金等纵向项目以及横向合作项目。发表论文180余篇,其中中国计算机学会A类期刊和会议论文20篇,包括如TKDE、VLDBJ、SIGMOD、VLDB、ICDE、AAAI、WWW、ACL、IJCAI、EMNLP等。获得发明专利26项,软件著作权25项。获得2023年中国发明协会发明创业创新奖一等奖、2021年中国产学研合作促进会产学研合作创新奖(个人)和2020年中国产学研合作促进会产学研合作创新奖二等奖。