# 数据挖掘算法建模

# 建模设置与提交任务

​ 本平台支持建立回归,分类和模式识别等模型,并提供多种算法可供选择。

​ 此外,本平台也支持回归方法的智能化建模,平台会使用多种常用回归算法对数据进行建模,并比较模型结果,保留结果最优的模型进行展示并且与其他算法的结果进行比较。

# 建立模型

  1. 选择左侧Algorithm(算法) 菜单,在Regression (回归)分类下,选择需要的算法,如图所示,这里以支持向量机回归为例。

alg

  1. 在Task Name中填写对本次计算任务的命名,如果为空则会默认以本次的上传时间作为任务名。
  2. 点击“Show Details”按钮可以打开详情设置,选择进行K折交叉验证或是直接建模,勾选选框并填入交叉验证的K值,不勾选选框即表示不做交叉验证直接建模,再点击select_file按钮,上传数据集,点击“Submit”按钮完成提交,得到如图所示的返回结果即为提交成功。

success

建立其他类型的模型操作方法类似,这里不再赘述。

# 查看模型结果

# 回归模型结果

  1. 点击左侧的TaskManager菜单,点击对应任务的Detail按钮,即可查看任务结果,任务列表页面如图所示。

    task

  2. 在任务详情页可以看到模型的结果,图表展示了模型预报值与实际值的误差,横坐标为模型的预报值,纵坐标为数据集中的实际目标值,对角线表示预报值等于实际值,因而预报点越接近对角线,则表示误差越小。此外平台也计算出了相应的误差表,可以看到预报结果与实际值的相关系数(R),均方根误差(RMSE),平均绝对误差(MAE)和平均相对误差(MRE),模型结果图表和误差表分别如下图所示。

    reg

  3. 使用模型预报:如果建模时没有没有选择K折交叉验证,则可以点击下方的"Predict"按钮并上传数据集使用模型进行预报。

# 分类模型结果

​ 在任务详情页可以看到模型的结果,对于分类任务,平台在模型结果页展示了分类模型的混淆矩阵。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。在混淆矩阵下也给出了正确分类的百分比。结果如图所示。

cla

​ 与回归模型类似,如果建模时没有没有选择K折交叉验证,则可以点击模型结果下方的"Predict"按钮并上传数据集使用模型进行预报。

# 数据降维与模式识别模型结果

​ 在任务详情页可以看到模型的结果,对于此类任务,平台在模型结果页展示了数据在二位平面上的投影图。从投影图中可以看出,不同类别的样本用不同的颜色进行了标记,可以直观地看出不同类别样本的分布趋势,以便于对未知类别的数据进行判断。结果如图所示。

trans

# 特征筛选

​ 当数据集中的变量个数较多时,则需要对数据集进行变量筛选,也叫特征筛选。对于一个特定的学习算法来说,哪些特征有效是未知的。因而要从所有特征中选择出对于学习算法有益的相关特征。如果只选择所有特征中有效的部分特征构建模型,那么可以减少学习算法的运行时间,提高模型的精度,也可以增加模型的可解释性。

# 特征筛选设置与结果查看

  1. 选择 Algorithm 菜单,在Feature Selection分类下选择GA算法,并在Task Name框内输入任务名称,这里以输入Feature Select 为例。之后在Algorithm Settings 的 Algorithm 的框内选择:sf_SVR算法。结果如下图所示.

fe_ga

  1. 点击Select Files,选择需要进行特征筛选的数据集,然后点击Start Optimization 按键提交优化任务,显示“Success”即为提交成功。

    success

  2. 在任务列表中可以查看结果详情

    res1

  3. 点击show details后,可以看到筛选后的变量列表,再点击弹出的Extract Dataset按钮,导出参数选择后的数据。

    res2

# 超参数优化

​ 对于有些机器学习算法来说,不同的超参数下进行训练的模型也会有不同的结果,通过超参数优化,可以进一步提高模型的精度。平台提供了遗传算法(GA)的超参数优化。

# 超参数优化设置与结果查看

  1. 点击左侧菜单栏的Algorithm,再点击右下角的 Hyper-param Optimization 按钮。结果如下图所示.

fe_ga

  1. 填写Task Name,选择算法,这里以sk_SVR为例,在需要进行优化的超参数方框内打勾,然后select file选择feature_selection_dataset.csv文件。最后点击Start Optimization。

    success

  2. 在任务列表中可以查看结果详情

    res1

  3. 点击左侧菜单栏Task Manager按钮,再点击Task Name为Hyper-param Optimization 的Detail按钮。在任务结果页点击 show Details按钮,结果如图3-49所示,红色方框的内容就是优化后的超参数结果。

得到优化后的这组超参数后,就可以根据这组超参数对模型进行设置,建立优化后的新模型。