欢迎光华体会游戏平台官网!

快速算法查找101

发布时间:2021-10-11 人气:

本文摘要:检察那里的其他一些常见数据科学算法。如果您想到数据科学,您的想法通常会转向神经网络,可是实际上,数据科学家会凭据自己的优点或短处想到许多其他算法。固然,这些提供了一些更常用的选择,而且在许多情况下,另有更庞大的版本可以解决问题或增加功效。 可是,为了使本文简短,我仅包罗了更基本的版本。我不会涉及神经网络,因为有数百篇关于它们的文章,可是如果您想快速入门,我可以推荐我的快速入门文章。

华体会游戏平台

检察那里的其他一些常见数据科学算法。如果您想到数据科学,您的想法通常会转向神经网络,可是实际上,数据科学家会凭据自己的优点或短处想到许多其他算法。固然,这些提供了一些更常用的选择,而且在许多情况下,另有更庞大的版本可以解决问题或增加功效。

可是,为了使本文简短,我仅包罗了更基本的版本。我不会涉及神经网络,因为有数百篇关于它们的文章,可是如果您想快速入门,我可以推荐我的快速入门文章。> Photo by Glenn Carstens-Peters on Unsplash 在开始之前,请仔细阅读我将在其标题下的方括号中使用的几个术语以及使用它们时的寄义:· 监视学习-数据被标志· 无监视学习-数据未标志· 白盒方法-可以询问算法以资助解释其决议历程的效果· 黑盒方法-算法接纳输入变量并提供输出(或决议),但要解释其执行方式并不容易· 回归方法-使用输入提供一连的输出(例如0.0到2.5)· 分类方法-使用输入提供离散输出(例如"红色","黄色","蓝色")N.B. 在谈论带标签的数据时,这意味着我们知道效果(即图片是"狗"或"猫"的图片),而且是我们试图让机械学习算法举行复制的效果。

对于无监视者,等效条件是它在数据中寻找分组和区别,但不知道谜底(即,将所有图片分为差别的动物类型,但不知道其中的一个是"猫",而另一个是"猫" 蛇")。> Photo by Isaac Smith on Unsplash 1.线性回归(监视学习,白盒法,回归法)用于基于一连变量预计实数值。它通过拟合最适合数据点的线来建设自变量和因变量之间的关系。此"最佳拟合"线称为回归线,并表现为(对于一个自变量):其中:· y-因变量· x-自变量· a —回归线斜率的系数· b-回归线截距的系数如果要使用多个自变量,则将使用多元线性回归。

也可以拟合多项式和曲线。为了适应回归线,可以使用差别的计谋,但最常见的是:· 最小二乘-这是最小化平方误差之和的地方· 最大似然-这是一种概率方法,对于给定的系数(凌驾其他选择),看到可能性可能最大。

作者注意:如果您在工具上受限制,则Excel中可能同时使用奇异和线性回归2. Logistic回归(监视学习,白盒法,分类法)线性回归的分类版本。这需要离散(例如"是"或"否")而不是一连变量(例如0.0到1.0)。通过对自变量拟合逻辑函数(也称为Logit函数),可以对其是否属于类举行概率评估。因此,输出将介于0.0和1.0之间,这可以解释为概率。

作为一个简朴的例子,我们将使用两个分类问题("发生事件"和"未发生事件")和一个自变量x,然后Logit函数σ如下所示:其中:· σ— Logit函数· y-任何实际输入如果我们假设y来自独立变量的线性组合,那么在这种情况下,它将看起来像:因此,Logit函数将更改为:F(x)可以解释为这种情况下事件发生的概率。通常,然后使用阈值停止来确定事件以什么概率级别被分类为"发生"。一种方法是使用ROC曲线和混淆矩阵举行优化。

此示例是只有两个分类可用的二进制逻辑回归之一,可是,存在许多其他形式可以执行更多分类(多项逻辑回归),而且也可以接纳更多输入变量。还存在体贴分类是否为序数的表格。作者注意:可以在Excel中执行二进制Logistic回归(具有一个或多个自变量)。

可是,希望调试起来很辛苦!> Example of a Decision Tree if its splitting rules were drawn out 3.决议树(监视学习,白盒法,分类法,回归法)该算法的事情原理是选择最能支解数据的输入变量(与其他输入变量相比,选择错误最少),然后凭据规则(例如"如果时间大于5小时")支解数据。然后,它依次获取每组拆分数据,然后找到下一个变量(或再次使用同一变量)再次拆分数据。

它会一直这样做,直到做出决议的"树",从而导致输出相同标签的同类数据集。决议流程图可以由数据科学家生成和研究。

这对于解释效果以及将其嵌入无法容纳机械学习算法的设备中很有用。总而言之,该算法会凭据最重要的输入变量将数据一连分为2个或更多同构数据集,以使尽可能多的差别组成为可能。可以通过多种措施来完成此拆分,例如:· 基尼· 信息增益· 卡方· 熵· 和更多可是,使用您要求的这些措施之一,如何确定拆分是否有益? 通常,拆分是通过分量尺度的更改来权衡的。

通常,这可能是由于杂质造成的,合并后的拆分样品的纯度比未拆分数据小得多,因此选择纯度降低幅度最大的拆分。如果您有兴趣的话,我在这里有一篇更深入的文章。该算法能够执行回归和分类分析。作者注意:该算法(以及决议森林)由于具有灵活性和研究如何告竣决议的能力,因此倾向于成为数据科学家最常用的算法之一。

它通常会给出令人惊讶的好效果,可以作为以后算法的基准。> Photo by Sebastian Unrau on Unsplash 4.随机森林(监视学习,黑盒法,分类法,回归法)直接从决议树开始,值得一提的是随机森林。用最简朴的术语来说,"随机森林"只是决议树的荟萃,其中每棵树凭据数据做出自己的决议,然后举行团体投票。

然后将获胜的决议作为输出。就像决议树一样,它能够举行回归和分类。

"植树"和"种植"森林的基本方法是通过"树袋装":· 如果训练案例的数量为N,则通过替换抽样来获取巨细为N的样本。每次为每棵种植的树木构建此样本。

· 如果有M个输入变量,则将其中的一个随机子集(m << M)分配给每棵种植的树木。· 这组m个输入变量和样本数据点用于在不修剪的情况下使每棵树最大水平地生长(在此情况下,删除弱决议或从树中删除导致一组效果样本数量较少的决议) 决议流程图)。此方法的效果是,并非每棵树都将看到相同的输入数据和输入变量,这会淘汰过分拟合的时机,但也会提高模型性能。

缺点是经常需要许多树(100到1000或更多),效果需要大量的盘算时间。一个优点是可以通过检察"袋外错误"找到最佳的树木数量。在此为每棵树提供输入数据,该输入数据不是用于建立它的原始随机样本的一部门。然后汇总每棵树的效果性能,并通过检察针对"种植"的树的数量的误差,通常会泛起一个平台期,在此阶段无法通过添加更多树来进一步改善模型。

作者注:最近几年已经举行了一些事情,以提高随机森林的可解释性。这些包罗功效重要性和决议路径(检察每个功效的平均响应)。5.支持向量机(SVM)(监视学习,黑盒法,分类法,回归法)传统上,此算法用于分类问题,但也能够举行回归(随着此类领域的使用不停增长)。

该算法的目的是插入一个平坦的界限,将类分为各自的组。在最基本的级别上,如果一个类在图的左下角有一个类,而另一类在右上角,则该算法将插入一条从左上角到右下角的线。这条线是"决议界限",新点的分类是由这些点落在线的哪一侧举行的。

对于不那么容易分散的数据,SVM会增加绘制的数据的维数(每个要素均绘制为坐标),直到SVM可以插入用于分开类的平坦超平面界限为止。通常会插入界限,以便最大水平地增加每个种别的最靠近直线的点之间的距离(等距),而且所涉及的数学往往难以给出可解释的效果。将数据(这是内核功效本质上所做的)映射到更高的维度时使用"内核技巧",该方法可以拟合界限,而无需花费将所有数据转换为co的全部昂贵的盘算成本 -高阶维度的纵坐标。此外,由于仅在决议界限四周使用了数据点(这些点称为支持向量),因此不需要其他点。

这可以使SVM在能够紧凑地存储和训练模型方面具有优势。SVM可能是一个很是强大的工具,已在多个差别领域中使用。如:· 文天职类-在识别语言的同时,还按主题对内容举行分类· 基因研究—基因表达的分类· 事件检测-检测稀有事件,例如宁静毛病,引擎故障等。

作者注意:可以执行无监视学习的SVM版本可用,称为"支持向量聚类"。作者注2:迄今为止,机械学习中一些最有效的效果来自SVM和神经网络(有时会在类似挑战中竞争)> Photo by Riho Kroll on Unsplash 6.朴素贝叶斯(监视学习,白盒法,分类法)该模型使用输入变量之间独立性的假设,并使用贝叶斯定理发生一种数据分类的方法。

贝叶斯定理的基本方程为:其中:· P(A)—独立于事件B视察事件A的概率· P(B)—独立于事件A视察事件B的概率· P(A | B)-视察到事件A的概率· P(B | A)-在事件A已发生的情况下视察事件B的概率N.B. P(B)> 0且A和B为事件它具有强大的优势,因为它易于解释,易于构建,易于训练而且可以很是迅速地做出决议。这对于很是大的数据集和某些行业(例如试图量化风险的行业)很有用。甚至已知它的性能要比庞大得多的模型和方法好得多。

华体会游戏平台

作者注意:由于此算法假定输入变量的独立性,因此如果输入变量与输入变量无关,则可以强烈影响所得模型。> Photo by Capturing the human heart. on Unsplash 7. K近邻(KNN)(监视学习,黑盒法,分类法,回归法)这被广泛用于执行分类,可是回归问题也是可能的。使用的方法是分组之一。通过在特征空间中绘制点并添加新的数据点,可以在空间上找到最靠近的K个邻人。

因此,分类只是最近的邻人中最常见的。遥测纷歧定是纯粹的欧几里得怀抱(也已使用了曼哈顿和明可夫斯基),但为K选择正确的值可能是此模型的挑战之一。

幸运的是,这些模型训练起来很是快,可是由于它们存储了所有数据,因此它们可能很大,而且要获得效果可能在盘算上很是昂贵,因为每次都必须找到K个最近的邻人。作者注意:使用此模型时,所有输入变量都必须举行规范化,这一点很重要,否则该模型将受某些变量的影响更大,而纯粹受其值规模的影响。

8. K-均值聚类(无监视学习,Box方法,分类方法)这是无监视机械学习算法的示例。基本方法是:· 所有数据点都在特征空间中绘制(类似于KNN)· K个点被植入要素空间内(随机或由数据科学家选择)· 然后,数据点围绕这些点形成簇。他们成为最靠近他们的人的一员· 对于每个聚类,盘算中心点· 凭据数据点隶属度与这些群集中心点的距离重新确定其成员资格· 重新盘算步骤4和5,直到中心点的移动低于设置的阈值。

即 发生了收敛从外貌上看,这看起来与KNN类似,可是其事情方式差别。确实存在确定要放置的初始K个点的数量的问题,可是可以对它们举行预计。用于资助优化值K的方法是针对每个群集,将每个群集数据点与群集质心的平方差求和。

将这些值相加后,便获得每个模型的聚类解决方案。通过更改K的值并重新盘算聚类解,我们可以看到,随着K值的增加,该值应减小,可是在某个点上,增加K的增益会减小。

这为K的最佳值提供了指导。作者注意:混淆数据很难离开。思量两个相互关联的螺旋,尺度的K均值将无法将两者离开。

可是,存在差别的方法来解决此问题。> Photo by Greg Hill on Unsplash 竣事……还是?我希望这份清单能够为人们提供信息,以相识(至少在高条理上)一些通用数据科学算法的事情方式,以及它们的优缺点。固然,随着该领域不停地学习和生长,这永远不行能是一个详尽的清单,可是相识这些知识将有助于您相识其他人。(本文翻译自Paul May的文章《Quick Algorithm Lookup 101》,参考:https://towardsdatascience.com/quick-algorithm-lookup-101-c5520c6daa02)。


本文关键词:华体会游戏官网,快速,算法,查找,101,检察,那里,的,其他,一些

本文来源:华体会游戏平台-www.bangong.org.cn