1. 对数据做数据探索分析 2. 适当的特征工程 3. 对全体数据,随机选择其中80%做训练数据,剩下20%为测试数据,评价指标为RMSE。 4. 用训练数据训练最小二乘线性回归模型、岭回归模型、Lasso模型,其中岭回归模型和Lasso模型,注意岭回归模型和Lasso模型的正则超参数调优。 5. 比较用上述三种模型得到的各特征的系数,以及各模型在测试集上的性能。并简单说明原因。
1. 对连续型特征,可以用哪个函数可视化其分布?(给出你最常用的一个即可),并根据代码运行结果给出示例。 2. 对两个连续型特征,可以用哪个函数得到这两个特征之间的相关性?根据代码运行结果,给出示例。 3. 如果发现特征之间有较强的相关性,在选择线性回归模型时应该采取什么措施。 4. 当采用带正则的模型以及采用随机梯度下降优化算法时,需要对输入(连续型)特征进行去量纲预处理。课程代码给出了用标准化(StandardScaler)的结果,请改成最小最大缩放(MinMaxScaler)去量纲 (,并重新训练最小二乘线性回归、岭回归、和Lasso模型。 5. 代码中给出了岭回归(RidgeCV)和Lasso(LassoCV)超参数(alpha_)调优的过程,请结合两个最佳模型以及最小二乘线性回归模型的结果,给出什么场合应该用岭回归,什么场合用Lasso,什么场合用最小二乘。