模型代码思路

总体思路

总结关键点：

数据预处理和特征工程:
- 在训练模型之前，首先对数据进行预处理，包括处理缺失值、数据转换、特征提取等。
- 对文本数据进行处理，可能包括将文本分割成句子或段落，并提取相关特征。
训练模型:
- 选择了LightGBM作为主要的机器学习模型。LightGBM是一个高效的梯度增强框架，适用于处理大规模数据。
- 设定LightGBM的参数，并可能通过调参优化模型性能。
- 后续还使用不同的特征训练了不同的LGBM、CatBoost、NN以及SVR模型
交叉验证:
- 使用交叉验证（如K-Fold）来评估模型的性能并防止过拟合。
- 交叉验证过程可能包括在不同的数据子集上训练模型并验证其性能。
模型训练与预测:
- 在处理好的特征上训练模型，并对测试集进行预测。
- 对训练数据和测试数据应用相同的特征处理步骤，以保持一致性。
结果提交:
- 根据模型在测试集上的预测生成提交文件。
- 将不同模型的生成结果进行加权融合作为最终结果并提交。

Tricks

上分点：

1、在本地验证的过程当中，发现了模型预测的结果与真实值存在着一定的偏差量，总体而言就是模型大多数预测的值会比真实值小一点，真实值大概是预测值的1.004~1.007倍，所以在最终的预测结果中乘以1.004-1.007这个区间的值，能够让得分暴涨。

submission['score'] = (submission['score_1']*0.2 *1.005 +  #LGBM + NN (Weighted search for "print(W)")
                       submission['score_2']*0.3 *1.005 +  #LGBM Public
                       submission['score_3']*0.5 *1.005)   #Fusion

2、时间戳特征不需要间隔太多，当gaps来到100时效果反而不太明显，将gaps限制在40以内是最好的结果。

self.gaps = [1, 2, 3, 5, 10, 20, 30, 35]