# 数据挖掘算法建模
# 建模设置与提交任务
本平台支持建立回归,分类和模式识别等模型,并提供多种算法可供选择。
此外,本平台也支持回归方法的智能化建模,平台会使用多种常用回归算法对数据进行建模,并比较模型结果,保留结果最优的模型进行展示并且与其他算法的结果进行比较。
# 建立模型
- 选择左侧Algorithm(算法) 菜单,在Regression (回归)分类下,选择需要的算法,如图所示,这里以支持向量机回归为例。
- 在Task Name中填写对本次计算任务的命名,如果为空则会默认以本次的上传时间作为任务名。
- 点击“Show Details”按钮可以打开详情设置,选择进行K折交叉验证或是直接建模,勾选选框并填入交叉验证的K值,不勾选选框即表示不做交叉验证直接建模,再点击按钮,上传数据集,点击“Submit”按钮完成提交,得到如图所示的返回结果即为提交成功。
建立其他类型的模型操作方法类似,这里不再赘述。
# 查看模型结果
# 回归模型结果
点击左侧的TaskManager菜单,点击对应任务的Detail按钮,即可查看任务结果,任务列表页面如图所示。
在任务详情页可以看到模型的结果,图表展示了模型预报值与实际值的误差,横坐标为模型的预报值,纵坐标为数据集中的实际目标值,对角线表示预报值等于实际值,因而预报点越接近对角线,则表示误差越小。此外平台也计算出了相应的误差表,可以看到预报结果与实际值的相关系数(R),均方根误差(RMSE),平均绝对误差(MAE)和平均相对误差(MRE),模型结果图表和误差表分别如下图所示。
使用模型预报:如果建模时没有没有选择K折交叉验证,则可以点击下方的"Predict"按钮并上传数据集使用模型进行预报。
# 分类模型结果
在任务详情页可以看到模型的结果,对于分类任务,平台在模型结果页展示了分类模型的混淆矩阵。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。在混淆矩阵下也给出了正确分类的百分比。结果如图所示。
与回归模型类似,如果建模时没有没有选择K折交叉验证,则可以点击模型结果下方的"Predict"按钮并上传数据集使用模型进行预报。
# 数据降维与模式识别模型结果
在任务详情页可以看到模型的结果,对于此类任务,平台在模型结果页展示了数据在二位平面上的投影图。从投影图中可以看出,不同类别的样本用不同的颜色进行了标记,可以直观地看出不同类别样本的分布趋势,以便于对未知类别的数据进行判断。结果如图所示。
# 特征筛选
当数据集中的变量个数较多时,则需要对数据集进行变量筛选,也叫特征筛选。对于一个特定的学习算法来说,哪些特征有效是未知的。因而要从所有特征中选择出对于学习算法有益的相关特征。如果只选择所有特征中有效的部分特征构建模型,那么可以减少学习算法的运行时间,提高模型的精度,也可以增加模型的可解释性。
# 特征筛选设置与结果查看
- 选择 Algorithm 菜单,在Feature Selection分类下选择GA算法,并在Task Name框内输入任务名称,这里以输入Feature Select 为例。之后在Algorithm Settings 的 Algorithm 的框内选择:sf_SVR算法。结果如下图所示.
点击Select Files,选择需要进行特征筛选的数据集,然后点击Start Optimization 按键提交优化任务,显示“Success”即为提交成功。
在任务列表中可以查看结果详情
点击show details后,可以看到筛选后的变量列表,再点击弹出的Extract Dataset按钮,导出参数选择后的数据。
# 超参数优化
对于有些机器学习算法来说,不同的超参数下进行训练的模型也会有不同的结果,通过超参数优化,可以进一步提高模型的精度。平台提供了遗传算法(GA)的超参数优化。
# 超参数优化设置与结果查看
- 点击左侧菜单栏的Algorithm,再点击右下角的 Hyper-param Optimization 按钮。结果如下图所示.
填写Task Name,选择算法,这里以sk_SVR为例,在需要进行优化的超参数方框内打勾,然后select file选择feature_selection_dataset.csv文件。最后点击Start Optimization。
在任务列表中可以查看结果详情
点击左侧菜单栏Task Manager按钮,再点击Task Name为Hyper-param Optimization 的Detail按钮。在任务结果页点击 show Details按钮,结果如图3-49所示,红色方框的内容就是优化后的超参数结果。
得到优化后的这组超参数后,就可以根据这组超参数对模型进行设置,建立优化后的新模型。
← 用户注册与数据集要求 钙钛矿材料描述符填充 →