首页 理论教育机器学习的定义及其应用领域

机器学习的定义及其应用领域

【摘要】:机器学习方法在大型数据库中的应用称为数据挖掘。然而,机器学习不仅仅是数据库一个方面的问题,它也是人工智能的组成部分。为了智能化,处于变化环境中的系统必须具备学习的能力。机器学习使用实例数据或过去的经验训练计算机,以优化某种性能标准。机器学习在构建数学模型时利用了统计学理论,因为其核心任务就是从样本中推理。

随着计算机技术的发展,人们现在已经拥有存储和处理海量数据以及通过计算机网络从远程站点访问数据的能力。目前大多数的数据存取设备都是数字设备,记录的数据也很可靠。但是,只有分析这些数据,并且将它们转换为可以利用的信息后,这些存储的数据才能变得有用。尽管人们不清楚数据产生过程(例如顾客行为)的细节,但是,人们知道数据产生不是完全随机的,数据中存在确定的模式。

人们也许不能够完全识别数据产生的过程,但人们能够构造一个好的并且有用的近似。尽管这样的近似还不可能解释一切,但其仍然可以解释数据的某些部分;尽管识别全部过程也许是不可能的,但仍然能够发现某些模式或规律。这正是机器学习的定位。这些模式可以帮助人们理解数据产生的过程,人们可以使用这些模式进行预测:假定将来,至少是不远的将来,情况与收集样本数据时没有很大的不同,则未来的预测也将有望是正确的。

机器学习方法在大型数据库中的应用称为数据挖掘(datamining)。在数据挖掘中,需要处理大量的数据以构建简单有用的模型,例如具有高精度的预测模型。数据挖掘的应用领域非常广泛:除零售业以外,在金融业银行分析他们的历史数据,构建用于信用分析、诈骗检测、股票市场等方面的应用模型;在制造业,学习模型可以用于优化、控制以及故障检测等;在医学领域,学习程序可以用于医疗诊断等;在电信领域,通话模式的分析可用于网络优化和提高服务质量;在科学研究领域,比如物理学、天文学以及生物学的大量数据只有用计算机才可能得到足够快的分析。

然而,机器学习不仅仅是数据库一个方面的问题,它也是人工智能的组成部分。为了智能化,处于变化环境中的系统必须具备学习的能力。如果系统能够学习并且适应这些变化,那么系统的设计者就不必预见所有的情况,并为它们提供解决方案了。机器学习使用实例数据或过去的经验训练计算机,以优化某种性能标准。模型可以是预测性的,用于未来的预测;或者是描述性的,用于从数据中获取知识;也可以两者兼备。

机器学习在构建数学模型时利用了统计学理论,因为其核心任务就是从样本中推理。计算机科学的角色是双重的:第一,在训练时,我们需要求解优化问题以及存储和处理通常所面对的海量数据的高效算法;第二,一旦学习得到了一个模型,它的表示和用于推理的算法解也必须是高效的。在特定的应用中,学习或推理算法的效率,即它的空间复杂度和时间复杂度,可能与其预测精确度同样重要。