SFFAI论坛网站已开放注册,详情点击查看:https://bbs.sffai.com/d/312
关注公众号:【人工智能前沿讲习】,回复【SFFAI131】获取讲者PPT资料,入交流群,推荐论文下载。
Text-to-SQL 任务是在给定相应的数据库模式时,将自然语言问题转换为SQL查询语句,这在学术界和工业界都有重要的应用。过去的方法通常以节点为中心,利用参数矩阵对不同类型的边建模,这些方法忽略了边与边之间的结构信息,且无法区分每个节点的局部和非局部关系。本期论坛我们邀请到了来自上海交通大学的曹瑞升同学,他提出的线图增强模型有效解决了此任务中棘手的异构图编码问题。
讲者介绍
曹瑞升:上海交通大学计算机博士在读,主要研究方向为自然语言理解中的语义解析,目前已在ACL会议和TASLP期刊累计发表4篇文章。
报告题目:混合局部和全局关系的线图增强文本转SQL模型
报告摘要:该工作旨在解决文本转SQL任务中棘手的异构图编码问题。为此,我们提出了线图增强模型(Line Graph Enhanced Text-to-SQL, LGESQL)来挖掘潜在的关系特征,而且不需要显示地构造元路径。利用线图,信息不仅通过节点之间的连接传播,还能通过有向边之间的拓扑结构传播。同时,节点间的局部和非局部关系在图迭代更新时被区分地整合到一起。在跨域基准数据集Spider上,在不同词向量的设定下,我们都取得了榜单第一名,进一步地验证了该模型的有效性。
论文标题:LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations
分享亮点:
- 本文针对异构图编码问题,利用线图显式地对边的特征迭代更新;
- 模型中显式地区分节点之间的局部和非局部关系,并且有效地整合到一起。
论文推荐
推荐经典论文
A Syntactic Neural Model for General-Purpose Code Generation
2017年ACL该论文针对语义解析领域的受限解码问题(结构化输出有严格的语法和语义限制),基于语法来解码,先生成目标程序的语法树,再通过后处理转化。我个人非常喜欢这项工作,它提出了一个完整普适的端到端语法转导框架。
Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation
2019年ACL该论文提出IRNet模型,基于语法进行解码,先生成一种中间语义表示SemQL,再通过后处理转化成SQL,是后续很多工作的解码器基准。
RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers
2020年ACL该论文首次将关系图注意力网络模型自适应地用于Text-to-SQL领域,在基准数据集上取得了非常显著的提升,是后续很多工作的编码器基准。
推荐最新进展
TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data
2020年ACL该论文着重于文本和表格数据的联合预训练,结合表格的特性,提出纵向注意力计算和横向注意力计算两种模式,以及诸多针对性的自监督任务。
Towards Robustness of Text-to-SQL Models against Synonym Substitution
2021年ACL该论文指出目前文本转SQL任务的潜在风险,用户问句和表名/列名的重合度较高,并对基准数据集重新标注,刻意转述或用近义词替换原始问句中包含的表名和列名,性能显著下降,并针对性提出两种解决方案。
PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models
2021年EMNLP该论文使用基于符号的端到端模型直接生成SQL序列,仅仅在解码时每一步加以限制约束,就能生成语法和语义合理的输出。