人工智能

入门推荐:使用Python进行机器学习

什么是机器学习?

机器学习是人工智能的一部分,它使计算机能够自动学习,并通过经验不断提高自己。机器学习的主要焦点是开发计算机程序,这些程序可以根据新发现的数据进行自我改进,而无需修改编程。它通过结合数据和统计工具来预测输出,并与数据挖掘和贝叶斯预测建模有关。

在机器学习的过程中,系统接收数据作为输入,并使用该算法提供输出。机器学习用于欺诈检测、投资组合优化、预测维护等等。机器学习算法有朴素贝叶斯算法、决策树算法、支持向量机算法、K近邻算法、K均值聚类算法、随机森林算法等。目前,它被广泛应用于价格预测、自动驾驶汽车、欺诈检测甚至自然语言处理等领域。

机器学习可分为三个部分:

监督学习:在监督机器学习中,机器从有助于提供正确输出的标记良好的数据中学习。

无监督学习:在该算法中,机器使用非分类数据进行训练,并且在没有指导的情况下工作。该算法用于计算输入数据的聚类。

强化学习:它允许计算机程序与它的动态交互,并且程序接受正反馈或负反馈以提高性能。

什么是Python

Python是一种高级的面向对象编程语言,由Guido van Rossum于1991年开发。它简单易懂,也容易学习。它促进了程序模块化和代码重用。因为它是一种交互语言,这意味着我们可以直接与解释器交互来编写代码。

为什么使用Python进行机器学习?

Python的各种特性使其成为ML的高技术,如下所示:

易于代码:与Python编写代码相比,类似于C++和Java的另一种编程语言非常容易。

面向对象:Python是完全基于OOPs的语言。它支持面向对象语言的所有概念,如类、对象、继承、多态性、封装等。

集成:它可以很容易地集成与其他语言,如C,C++等。

动态:这是一种动态类型语言,意味着不需要声明数据类型,因为它是在运行时决定变量类型的。

可移植:Python是一种独立的语言。您可以在任何操作系统Windows或MAC上执行相同的程序,因为在其他操作系统上运行时不需要编写不同的代码。

机器学习是如何工作的?

机器学习的过程从将训练数据输入到所选算法开始。利用已知或未知的训练数据来开发最终的机器学习算法,并且训练数据的类型会对算法产生影响。

为了检查该算法是否正常工作,将新的数据输入机器学习算法,然后检查结果和预测。如果结果是不可预期的,那么重新训练算法多次,直到没有提供所需的输出。它使机器学习算法能够不断地自己学习,并产生随着时间的推移提高正确性的最佳结果。

机器学习的应用

机器学习有几种应用:

谷歌翻译:机器学习广泛应用于谷歌翻译。它是机器学习最强大的应用之一。GNMT(谷歌神经机器翻译)是通过使用自然语言处理在许多不同类型的语言和字典上工作的一种神经机器学习,并提供任何单词或句子的最佳答案。

自动驾驶汽车:机器学习在自动驾驶汽车中起着至关重要的作用。一家汽车制造公司特斯拉正在研发一款自动驾驶汽车。自动驾驶汽车的机器学习算法的主要任务是对周围环境进行连续的转换,并预测对周围环境可能发生的变化。主要研究目标检测、目标定位、目标分类和运动预测。采用无监督学习算法对该车模型进行训练,使其在驾驶过程中识别出目标和人。

欺诈检测:欺诈检测是机器学习最重要的应用之一。它为在线交易提供安全性。由于各种在线支付方式的可用性,如信用卡或借记卡、网上银行、智能手机、UPI和几种类型的钱包,在线交易在过去几年中大幅增加。此外,犯罪人数不断增加,以发现网上支付系统的漏洞。

当我们使用任何一种在线支付方式时,前馈神经网络都会检测出它是授权交易还是未授权交易,从而使在线交易更加安全。

社交媒体:机器学习在Facebook、Twitter、Instagram等社交媒体应用程序或任何其他社交媒体应用程序中提供自动好友标记建议。例如,Facebook经常会注意到你联系的朋友的个人资料、你的兴趣、工作场所、你经常访问的个人资料。因此,它会根据你在Facebook上与其他人的互动来推荐一个好友列表,因此,如果你认为某个人可以成为你的朋友,你可以向他们中的任何一个发送好友请求。此外,机器学习允许Facebook自动找到与其数据库匹配的人的面部检测和图像识别,并建议你与此人进行标记。

搜索引擎:机器学习在Google和其他搜索引擎中用于改进搜索结果。每当您搜索某个东西并打开搜索结果的顶部链接并在该网页上停留很长时间时,搜索引擎就会根据查询了解所提供的结果是适当的。同样地,如果您到达第二、第三或另一个页面,但没有打开任何页面,那么搜索引擎将假定显示的结果与要求不匹配。因此,该算法在后端工作,以改善搜索结果。

电子邮件垃圾邮件和恶意软件过滤:有几种技术可用于机器学习中的垃圾邮件过滤。每当你收到一封电子邮件,一封邮件就会被自动过滤为普通邮件、重要邮件和垃圾邮件。重要邮件在收件箱中以重要符号接收,垃圾邮件在垃圾邮件箱中以机器学习的方式接收。这些算法包括决策树、多层感知、朴素贝叶斯分类器等,用于恶意软件检测和垃圾邮件过滤。Gmail使用了一些垃圾邮件过滤器,如头过滤器、内容过滤器、权限过滤器、基于规则的过滤器、一般黑名单过滤器。

机器学习的生命周期

机器学习的生命周期是指从数据中收集知识。它使用数据作为输入,同时具有学习和改进算法的能力。它分为三个阶段:管道开发、培训和推理。如下图所示。

机器学习生命周期中有很多步骤。如下所示:

数据收集:数据收集是机器学习生命周期的第一步。此步骤的目标是识别和接收与问题相关的所有数据。收集数据的来源可以是互联网、文件、数据库或移动设备。借助于产出的效率,它决定了所收集数据的质量和数量。它涉及到识别多个数据源、收集数据和组合从不同来源接收的数据的任务过程。

数据整理:此步骤整理收集的数据,以便进一步移动。它将数据保存在适当的位置,并组织数据用于机器学习培训。数据排列遵循两个步骤,如下所示。

数据分析:用于确定数据的质量、特征和格式。

数据预处理:对分析数据进行预处理。

数据筛选:在此步骤中,清理数据并将其转换为操作格式,使其更适合分析数据。有时,收集到的数据是无用的。它伴随着各种各样的问题。它可以是无效数据、丢失值、重复数据和噪声等。因此,我们必须使用几种数据过滤技术来清理数据。

数据分析:它用来建立一个机器学习模型,使用各种分析技术来分析和回顾结果。它确定了问题的性质,选择了回归、分类、关联、聚类分析等机器学习技术,利用分析的数据构建模型,并对模型进行评价。

训练模型:在此步骤中,使用多种机器学习算法训练模型,以提高其性能并获得更好的输出。训练模型的目的是了解不同的模式、特性和规则。

测试模型:在对模型进行训练之后,它将进入测试阶段,检查模型是否提供了最佳结果。根据工程或问题的需要,分析了模型的精度百分比。

部署:在最后一步部署中,我们在实际系统中建立模型。如果训练后的模型能够在较短的时间内根据需求产生正确的答案,那么我们就可以将模型部署到实际系统中。但是,如果它没有按照要求提供准确的结果,那么重新训练模型,直到它没有给出期望的结果。

本文由 探界网 作者:行者 发表,转载请注明来源!

热评文章