第350章 好看!
、将特征重要程度排序的过程与模型构建过程同时进行的特征选择方法称作嵌入式特征选择方法()2、线性回归模型的目标函数为残差平方和最大化(残差平方和最化)3、特征向量中心度度量节点在络中的影响力。络中每个节点被赋予一个影响力分数,一个节点与更多的高分节点相连,其分数也趋向于更高。()4、强化学习使用已标记的数据,根据延迟奖励学习策略。(未标记的数据,通过与环境的交互来收集数据进行学习)5、过拟合是器学习中一个重要概念,是指模型过于复杂,导致对测试数据预测很好,但对训练数据预测很差。(对训练数据预测很好,对测试数据预测很差)三、分析题(本题满分30分,共含5道题,每题6分)、现有样本如下:0,2,3,4,5,6,,,9,0,4,42,43,44,45,46,4,4,49,50。使用等距离散化来处理该样本,将样本分为5个区间段。有几个区间内样本容量不为0?你的答案:2你的计算过程:首先,计算样本的最值和最大值:最值:0最大值:50然后,确定分为5个区间时的间距:(最大值-最值)\/区间数=(50-0)\/5=0接下来,以间距为0进行等距离散化:区间:0-9(共0个样本)区间2:0-9(无样本)区间3:20-29(无样本)区间4:30-39(无样本)区间5:40-50(共个样本)根据以上结果,有2个区间段(区间2和区间3)内的样本容量不为0。请注意,这种等距离散化方式可能导致某些区间没有样本,而其他区间样本较多。2、随森林采用的是什么集成方法?(abggg,bbtg,stg)。这种集成方法适用于什么情况?你的选择:bggg你的解释:bggg(自举汇聚法)适用于以下情况:训练数据较少,需要尽可能充分利用现有的有限样本。数据集存在较强的噪声或离群点,需要通过多个模型的平均来减噪声影响。需要降低模型的方差,提高模型的稳定性和鲁棒性。模型复杂度较高,容易过拟合,需要引入随性增加泛化能力。bggg通过对原始训练集进行有放回的抽样,构建多个子模型。每个子模型相互独立地训练,并通过取平均值(回归问题)或投票(分类问题)的方式进行预测。随森林就是一种基于bggg思想的集成学习算法,它使用决策树作为基分类器,并通过对特征的随选择进一步增加模型的多样性。由于bggg的平行结构,随森林可以有效处理大规模数据,具有较好的预测性能和计算效率。3、为了考察一种新的教学方法对学生英语成绩的影响,某学校进行了调查,共得到400个样本数据。数据表中grade为标签,psi、gpa、tu为特征。grade为分类数据,取表示学习成绩提高,0表示学习成绩没有提高;最近转码严重,让我们更有动力,更新更快,麻烦你动动退出阅读模式。谢谢
、将特征重要程度排序的过程与模型构建过程同时进行的特征选择方法称作嵌入式特征选择方法()2、线性回归模型的目标函数为残差平方和最大化(残差平方和最化)3、特征向量中心度度量节点在络中的影响力。络中每个节点被赋予一个影响力分数,一个节点与更多的高分节点相连,其分数也趋向于更高。()4、强化学习使用已标记的数据,根据延迟奖励学习策略。(未标记的数据,通过与环境的交互来收集数据进行学习)5、过拟合是器学习中一个重要概念,是指模型过于复杂,导致对测试数据预测很好,但对训练数据预测很差。(对训练数据预测很好,对测试数据预测很差)三、分析题(本题满分30分,共含5道题,每题6分)、现有样本如下:0,2,3,4,5,6,,,9,0,4,42,43,44,45,46,4,4,49,50。使用等距离散化来处理该样本,将样本分为5个区间段。有几个区间内样本容量不为0?你的答案:2你的计算过程:首先,计算样本的最值和最大值:最值:0最大值:50然后,确定分为5个区间时的间距:(最大值-最值)\/区间数=(50-0)\/5=0接下来,以间距为0进行等距离散化:区间:0-9(共0个样本)区间2:0-9(无样本)区间3:20-29(无样本)区间4:30-39(无样本)区间5:40-50(共个样本)根据以上结果,有2个区间段(区间2和区间3)内的样本容量不为0。请注意,这种等距离散化方式可能导致某些区间没有样本,而其他区间样本较多。2、随森林采用的是什么集成方法?(abggg,bbtg,stg)。这种集成方法适用于什么情况?你的选择:bggg你的解释:bggg(自举汇聚法)适用于以下情况:训练数据较少,需要尽可能充分利用现有的有限样本。数据集存在较强的噪声或离群点,需要通过多个模型的平均来减噪声影响。需要降低模型的方差,提高模型的稳定性和鲁棒性。模型复杂度较高,容易过拟合,需要引入随性增加泛化能力。bggg通过对原始训练集进行有放回的抽样,构建多个子模型。每个子模型相互独立地训练,并通过取平均值(回归问题)或投票(分类问题)的方式进行预测。随森林就是一种基于bggg思想的集成学习算法,它使用决策树作为基分类器,并通过对特征的随选择进一步增加模型的多样性。由于bggg的平行结构,随森林可以有效处理大规模数据,具有较好的预测性能和计算效率。3、为了考察一种新的教学方法对学生英语成绩的影响,某学校进行了调查,共得到400个样本数据。数据表中grade为标签,psi、gpa、tu为特征。grade为分类数据,取表示学习成绩提高,0表示学习成绩没有提高;最近转码严重,让我们更有动力,更新更快,麻烦你动动退出阅读模式。谢谢