跳转到主要内容
Chal1ce blog

Kaggle 写作质量检测 68th比赛总结

kaggle 比赛总结

模型代码思路

总体思路

总结关键点:

  1. 数据预处理和特征工程:
    • 在训练模型之前,首先对数据进行预处理,包括处理缺失值、数据转换、特征提取等。
    • 对文本数据进行处理,可能包括将文本分割成句子或段落,并提取相关特征。
  2. 训练模型:
    • 选择了LightGBM作为主要的机器学习模型。LightGBM是一个高效的梯度增强框架,适用于处理大规模数据。
    • 设定LightGBM的参数,并可能通过调参优化模型性能。
    • 后续还使用不同的特征训练了不同的LGBM、CatBoost、NN以及SVR模型
  3. 交叉验证:
    • 使用交叉验证(如K-Fold)来评估模型的性能并防止过拟合。
    • 交叉验证过程可能包括在不同的数据子集上训练模型并验证其性能。
  4. 模型训练与预测:
    • 在处理好的特征上训练模型,并对测试集进行预测。
    • 对训练数据和测试数据应用相同的特征处理步骤,以保持一致性。
  5. 结果提交:
    • 根据模型在测试集上的预测生成提交文件。
    • 将不同模型的生成结果进行加权融合作为最终结果并提交。

Tricks

上分点:

1、在本地验证的过程当中,发现了模型预测的结果与真实值存在着一定的偏差量,总体而言就是模型大多数预测的值会比真实值小一点,真实值大概是预测值的1.004~1.007倍,所以在最终的预测结果中乘以1.004-1.007这个区间的值,能够让得分暴涨。

submission['score'] = (submission['score_1']*0.2 *1.005 +  #LGBM + NN (Weighted search for "print(W)")
                       submission['score_2']*0.3 *1.005 +  #LGBM Public
                       submission['score_3']*0.5 *1.005)   #Fusion

2、时间戳特征不需要间隔太多,当gaps来到100时效果反而不太明显,将gaps限制在40以内是最好的结果。

self.gaps = [1, 2, 3, 5, 10, 20, 30, 35]