跳转到主要内容
Chal1ce blog

LLM Science Exam 第94名 比赛总结

kaggle 比赛总结

Overview

主要工作:

  • 生成数据:利用 ChatGPT 和 Wiki 的 API 接口,将维基百科页面的文本传入 ChatGPT 中,让 ChatGPT 根据传入 的文本生成问题和答案,生成训练数据。
  • 过滤数据:使用 sentence transformer 生成问题的嵌入向量 embeddings ,利用 Faiss 库计算向量相似度,对相似度 高的训练数据进行过滤,最终得到过滤后的问题答案集。
  • RAG 检索增强生成:利用 sentence bert、TF -IDF、BM25 找出和问题最相关的文章和句子,对其进行拼接生成 与问题最相关的上下文,为训练模型做准备。
  • 模型训练:采用 DebertaV3 模型和 Huggingface 提供的 Trainer 训练器进行训练。
  • 模型推理:利用 RAG 生成上下文,并与问题一起输入给模型进行推理预测,提交预测结果。