注意 本文是由人工智能助手生成,旨在提供信息和分析。请读者在使用相关信息时进行辨识和核实,以确保内容的准确性和适用性。
背景与目标
DB-GPT-Hub 是一个针对大型语言模型(LLM)进行文本到SQL(text2sql)任务微调的框架,侧重于微调更大的模型来解决复杂SQL查询。框架旨在提供从数据预处理到模型验证和评估的完整工作流程。
框架设计
DB-GPT-Hub 包含以下关键模块:
数据集构建:将原始文本到SQL数据转换为适合微调 LLM 的格式,如 Spider 数据集的处理。
训练:支持多种开源和闭源 LLM 的微调,包括 Qwen、Llama、Baichuan 和 ChatGLM。
预测:支持少样本和零样本方法,生成特定场景下的SQL查询。
评估:使用不同的指标(如 EM 和 EX)评估模型性能。
数据集
DB-GPT-Hub 使用多种高质量的数据集,包括:
Spider:跨领域数据集,包含10,181个自然语言查询和5,693个复杂SQL查询。
WikiSQL:包含80,654个自然语言查询和24,241个表格的标注数据。
CHASE:跨领域多轮交互的text2sql数据集。
BIRD-SQL:大规模跨领域文本到SQL数据集,涉及12,751对文本到SQL数据对。
CoSQL:跨领域对话文本到SQL系统的语料库。
微调流程
数据预处理:将原始数据转换为适合微调的格式。
使用带有数据库信息的提示优化输入。
支持 PEFT 策略进行微调。
确保公平比较,所有模型使用相同的最大上下文长度(2048)和响应生成的 token 数量(512)。
评估与指标
使用 EM 和 EX 两个指标评估模型性能。
EX 提供了对模型性能更精确的估计。
实验与应用
DB-GPT-Hub 的实验结果展示了其在不同数据集上的性能表现,确保了框架的有效性和适用性。
参考文献
DB-GPT-Hub: Towards Open Benchmarking Text-to-SQL Empowered by Large Language Models,https://arxiv.org/abs/2406.11434
text2sql基准测试:https://github.com/eosphoros-ai/Awesome-Text2SQL
总结
DB-GPT-Hub 提供了一个全面的框架来微调大型语言模型以处理复杂的文本到SQL任务,并通过多种数据集和指标进行评估,展示了其在实际应用中的潜力。
评论区