Kaggle 写作质量检测 68th比赛总结
kaggle 比赛总结
模型代码思路
总体思路
总结关键点:
- 数据预处理和特征工程:
- 在训练模型之前,首先对数据进行预处理,包括处理缺失值、数据转换、特征提取等。
- 对文本数据进行处理,可能包括将文本分割成句子或段落,并提取相关特征。
- 训练模型:
- 选择了LightGBM作为主要的机器学习模型。LightGBM是一个高效的梯度增强框架,适用于处理大规模数据。
- 设定LightGBM的参数,并可能通过调参优化模型性能。
- 后续还使用不同的特征训练了不同的LGBM、CatBoost、NN以及SVR模型
- 交叉验证:
- 使用交叉验证(如K-Fold)来评估模型的性能并防止过拟合。
- 交叉验证过程可能包括在不同的数据子集上训练模型并验证其性能。
- 模型训练与预测:
- 在处理好的特征上训练模型,并对测试集进行预测。
- 对训练数据和测试数据应用相同的特征处理步骤,以保持一致性。
- 结果提交:
- 根据模型在测试集上的预测生成提交文件。
- 将不同模型的生成结果进行加权融合作为最终结果并提交。
Tricks
上分点:
1、在本地验证的过程当中,发现了模型预测的结果与真实值存在着一定的偏差量,总体而言就是模型大多数预测的值会比真实值小一点,真实值大概是预测值的1.004~1.007
倍,所以在最终的预测结果中乘以1.004-1.007
这个区间的值,能够让得分暴涨。
submission['score'] = (submission['score_1']*0.2 *1.005 + #LGBM + NN (Weighted search for "print(W)")
submission['score_2']*0.3 *1.005 + #LGBM Public
submission['score_3']*0.5 *1.005) #Fusion
2、时间戳特征不需要间隔太多,当gaps来到100时效果反而不太明显,将gaps限制在40以内是最好的结果。
self.gaps = [1, 2, 3, 5, 10, 20, 30, 35]