关键词:BP神经网络动量因子法变步长法学习速率
1.引言
人工神经网络(ArtificialNeuralNetworks,ANN)是通过对人脑神经元建模、联结模拟生物脑或世界系统的网络模型,是一种具有学习、记忆和模式识别等智能信息处理功能的人工系统。通常研究和使用的十种神经网络模型中,人们较多用的是Hopfield网络、BP网络、Kohonen网络和ART网络模型。其中的BP神经网络是基于反向传播(BackPropagation)的网络,也是神经网络领域中研究最多、应用最广的网络模型。它采用最小均方差的学习方式,可用于函数逼近及语言综合、识别和自适应控制等。
2.标准BP神经网络算法
BP算法作为前馈网络的主要学习算法,对神经网络的推广应用起了举足轻重的促进作用。标准的BP网络,优化计算的方法很多,比较典型的是采用一阶梯度法,即最速下降法。在BP神经网络训练中,主要是针对一定的输入,所得到的输出是否与期望输出接近,即误差的代价函数达到最小。其简单的实现步骤为:(1)通过网络输入反向传播;(2)通过网络将敏感性反向传播;(3)使用近似均方误差的BP算法更新权值和偏置值。
标准的BP算法因具有简单、易行、计算量小及并行性强等优点,是目前神经网络训练采用最多、最成熟的训练算法。由于BP网络中待寻优的参数太多,往往导致算法收敛速度慢。对于复杂问题,训练过程需迭代几千、几万次才能收敛到期望的精度。因此,标准的BP网络在很大程度上实用性不强,尤其对于实时性很强的系统而言。
3.BP算法的改进
BP多层前馈网络已成为神经网络的重要模型之一,但实际上的BP多层前馈网络并不是利用标准的BP算法对网络进行训练的,而是对BP算法进行了启发式改进。
(1)增加动量因子法
BP算法的神经网络的误差曲面具有不同的区域有不同的误差改变率的特点。假若开始训练的学习速率较高,那么算法的收敛速度可能很快。但当迭代进入的区域包含极小点时,此时算法发散,来回振荡,收敛不到极小值点。如果用平均改变参数的方法进行轨迹的过滤,就可以对震荡进行平滑并可产生稳定的轨迹。当动量滤波器的参数得到了改变,获取反向传播的动量,使用了动量项,可以在保证算法较为稳定的前提下,在网络训练进入局部最小值时产生一个继续向前的正向斜率运动,使得搜索能够跳出较浅的峰值;当网络搜索位于误差曲面平坦区的区域时,该方法能够较快地提高训练速度。
(2)变步长法
变步长法通过调整网络训练的学习率,故也称为可变学习速率的方法。BP算法中对连接权值的调整,取决于两个因子,即学习速率和梯度。其中通过调整学习速率提高算法收敛收率的方法,是当前认为最简单、有效的方法。学习率不能随意选取,选得太小,收敛会变慢;选得太大,可能调整过多,使得算法振荡或发散。所以,在对学习率进行调整时,一般遵循的准则是:首先检查修正值,看该值是否明显降低了误差。如果降低了,则学习率的值选取偏小,可以作为对学习率调整的参考;否则,学习率值调整过大,就应该对该值进行减小。增加可变速率参数后,得到改进的BP算法如下:
①如果整个训练集上的均方误差权值在更新后增加的,且该值超过了预设的某个百分数,如:1%~5%,则不对权值进行更新。学习速率被乘以一个大于零且小于1的因子,并且动量系数被设置为0。
②如果均方误差在权值更新后变小了,则接受权值更新。学习速度将被乘以一个大于1的因子。假若学习率被设置为0,则恢复之原来的值。
③如果均方误差的增长变小,则权值更新被接受,但学习速度保持不变。如果学习率过去被设置为0,则恢复到以前的值。
4.实验结果
分别对目标误差为0.001的网络训练。实验结果如下:
(1)采用标准BP网对样本进行训练,迭代次数近5000次尚未收敛。
(2)采用增加动量法,迭代375次,学习过程收敛。
(3)采用变步长法,迭代1728次收敛。
由此可见,未改进的标准BP学习算法存在收敛速度慢的缺陷;改进后的BP学习算法都从不同程度上提高了算法的收敛速度,训练的次数大大减小了。对BP算法采用启发式改进措施后,明显提高了学习速度。
关键词:人工神经网络多层感知器BP算法异或运算
中图分类号:TP391.4文献标识码:A文章编号:1007-9416(2013)03-0138-02
作为一门活跃的边缘叉学科,神经网络的研究与应用正成为人工智能、认识科学、神经生理学、非线性动力学等相关专业的热点。近十几年来,针对神经网络的学术研究大量涌现,上百种神经网络模型被提出,其应用涉及模式识别、联想记忆、信号处理、自动控制、组合优化、故障诊断及计算机视觉等众多方面,取得了令人瞩目的进展。
经过近半个世纪的发展,神经网络理论在模式识别、自动控制、信号处理、辅助决策、人工智能等众多研究领域取得了广泛的成功。关于学习、联想和记忆等具有智能特点过程的机理及其模拟方面的研究正受到越来越多的重视。
学习功能是神经网络最主要的特征之一。各种学习算法的研究,在人工神经网络理论与实践发展过程中起着重要作用。当前,人工神经网络研究的许多课题都致力于学习算法的改进、更新和应用。
1958年,美国学者FrankRosenblatt首次定义了一个具有单层计算单元的神经网络结构,取名为感知器(Perceptron)。经过论证,单层感知器只能进行线性分类,对非线性样本的划分无法实现,例如异或问题在二维空间中就是一个非线性的样本空间分类的问题,就需要用到多层感知器,即网络应具有隐层,但对隐层神经元的学习规则尚无所知。就感知器学习规则来说,其权值的调整取决于网络期望输出与实际输出之差,而对各隐层节点来说,不存在期望输出,因而该学习规则对隐层权值调整不适用。此时需要用到误差反向传播的BP学习规则。
BP(BackPropagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入―输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用梯度法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(inputlayer)、隐层(hidelayer)和输出层(outputlayer)。
BP算法由数据流的前向计算(正向传播)和误差信号的反向传播两个过程构成。正向传播时,传播方向为输入层隐层输出层,每层神经元的状态只影响下一层神经元。若在输出层得不到期望的输出,则转向误差信号的反向传播流程。通过这两个过程的交替进行,在权向量空间执行误差函数梯度下降策略,动态迭代搜索一组权向量,使网络误差函数达到最小值,从而完成信息提取和记忆过程。
BP算法的学习目的是对网络的连接权值进行调整,使得调整后的网络对任一输入都能达到所期望的输出。学习过程由正向传播与反向传播组成。正向传播用于对前向网络进行计算,即对某一输入信息,经过网络计算后得出它的输出结果;反向传播用于逐层传递误差,修改神经元间的连接权值,以使网络对于输入信息经过计算后得到的输出能达到期望的误差要求。
学习的方法是使用一组训练样例对网络的连接权值进行训练,每一个样例中,都包括输入及期望的输出两部分。在正向传播算法中,首先将训练样例的输入信息输入到网络中,输入信息从输入层经过隐层节点逐层计算处理后,传至输出层。在计算处理过程中,每一层神经元的状态只影响下一层神经元的状态,如果在输出层得到的结果不是所期望的输出,那么就转为反向传播。
反向传播把误差信号沿路径方向传回,并按一定的原则对各层神经元的权值进行修正,直到第一个隐层,这时再开始进行正向传播,利用刚才的输入信息进行正向网络计算,如果网络的输出达到了误差要求,则学习过程结束,如果达不到要求,则再进行反向传播的连接权值调整。
这一过程不断反复,直到网络正向计算的输出结果达到误差要求的结果为止,这时学习过程结束。具体算法过程见图1。一旦网络进行训练后,在用于求解实际问题时就只需要使用正向传播,而不需要使用反向传播了。
使用BP算法实现异或问题的具体学习过程按以下步骤顺序进行:
(1)网络状态初始化:用较小的随机数对网络的权值(Xji)和(Pkj)以及偏置值(θj)和(γk)赋初值。
(2)输入第一个模式。
(3)把学习模式的值作为输入层单元i的输出(Ii),用输入层到中间层的权值(Xji)和中间层单元的偏置值(θj),求出对中间单元j的输入Uj以及相应的输出Hj:
Uj=・Ii+θj,
Hj=f(Uj)。
上式中的f(・)是Sigmoid函数。
(4)用中间层的输出(Hj),中间层到输入层的连接权值(Pkj)以及输出层单元的偏置值(γk)求出对输出层单元k的输入Sk以及相应的输出Ok:
Sk=・Hj+γk,
Ok=f(Sk)。
(5)根据学习模式的教师信号Tk和输出层的输出Ok的差,求出有关输入层单元k的偏置值以及连接到其上权值的误差(δk):
δk=(Ok-Tk)・Ok・(1-Ok)。
(6)根据误差δk,从中间层到输入层的权值(Xkj)以及中间层的输出(Hj),求出有关中间层j的偏置值以及连接到其上的权值的误差(σj):
σj=・Pkj・Hj・(1-Hj)。
(7)根据由第(5)步求出的δk以及Hj和常数α,对从中间层单元j到输出层单元k的权值(Pkj)加以调整。另外,根据δk和常数β对输出层单元k的偏置值γk加以调整:
Pkj=Pkj+αδkHj,
γk=γk+βδk。
(8)根据误差σj,输入单元i的输出(Ii)以及常数α对从输入单元i到中间层单元j的连接权值(Xji)加以调整。根据误差(σj)和常数β对中间层单元j的偏置值(θj)加以调整:
Xji=Xji+ασjIi,
θj=θj+βσj。
(9)输入下一个模式。
(10)若有学习模式,则返回(3)。
(11)更新学习次数。
(12)若学习次数小于规定的次数,则返回(2)。
程序运行过程及结果:
程序运行后,在提示下输入“学习率”为0.999,输入“误差控制精度”为0.0001,输入“循环的最大次数”为20000,程序执行后,可以看到在result.txt中结果如图2。
通过这个实例,使用多层感知器解决了单层感知器不能解决的异或问题,也从侧面验证了BP网络通过若干简单非线性处理单元的复合映射,可获得复杂的非线性处理能力。但是从给入不同的学习率、误差控制精度和学习次数得到了不同的结果,从中也暴露了BP算法的一些局限性。
(1)该学习算法的收敛速度慢,常常需要成千上万次的迭代,而且随着训练样例的增多,网络性能会变差;
(2)网络中隐节点个数的选取上无理论上的指导;
(3)从数学角度上看,BP算法是一种梯度最速下降法,这就有可能出现局部最小的问题。当出现局部最小时,从表面上看,符合误差的要求,但这时所得到的解并不一定是问题的真正解。所以BP算法是不完备的。
参考文献
[1]徐丽娜.神经网络控制(第三版).电子工业出版社,2009.7.
[2]马锐.人工神经网络原理.机械工业出版社,2010.09.
[3]张军,詹志辉.计算智能.清华大学出版社,2009.11.
[4]杨建刚.人工神经网络实用教程,浙江大学出版社,2001.1.
[5]宋宜斌,王培进.多层前馈神经网络改进算法及其应用.计算机工程,2003.8.
关键词:crm;渠道偏好度;电信
一、案例研究方法与模型介绍
西方学者的案例研究过程渊源已久,kyburz-graber(2004)将案例研究分为三类:描述性案例研究、探索性案例研究以及因果解释性案例研究。本研究属于探索性案例研究,希望以国内一家电信运营商的crm管理过程实践为研究对象,分析客户对于渠道的偏好度。本案例企业为某电信运营商的一家地市分公司,拥有超过三百万用户,主要从事移动通信和数据服务业务。
这家电信运营商在完成基本的各种业务运营的生产性信息系统后,进一步完成数据汇总并建设了涵盖所有客户互动历史数据的中央数据仓库系统作为企业级业务数据平台。其市场营销部门充分利用这个统一集中的管理信息平台,对客户作各种深度的数据挖掘研究。对于渠道的偏好度的研究分析方案如下:
1.渠道的类型定为四类:营业厅、电话客服中心、短信、网站。
2.客户渠道的偏好度模型,使用数据挖掘的人工神经网络技术(详述如后),计算出每个用户使用四种渠道办理业务的倾向度评分。
3.主要的数据来源包括客服中心呼叫记录,短信请求记录,网站渠道运营记录,业务支撑系统工单,服务使用数据,以及客户基本属性数据等。
4.时间分析窗口数据,利用渠道偏好度模型给每个分析用户进行渠道使用倾向评分,再通过验证窗口用户使用渠道情况进行模型验证。分析窗口:用于分析特征的历史数据的时间跨度,需要3个月的历史数据;验证窗口:用于验证用户使用渠道情况,需要2个月的历史数据。
5.本案例研究所使用的技术方法为人工神经网络(ann)。人工神经网络的研究发展起源于20世纪40年代,是一种模仿人脑神经系统的非线性映射结构。它不依赖于精确数学模型,而显示出自适应和自学习功能。1943年,法国心理学家w.s.mcculoch和w.pitts提出了第一个神经元数学模型,开创了人类自然科学史上的一门新兴科学ann的研究。
人工神经网络会不断检验预测结果与实际情况是否相符。把与实际情况不符合的输入输出数据作为新的样本,对新样本进行动态学习并动态改变网络结构和参数,这样使网络适应环境或预测对象本身结构和参数的变化,从而使预测网络模型有更强的适应性。而在ann的实现过程中,往往需要大量的数据来产生充足的训练和测试样本模式集,以有效地训练和评估ann的性能,这正好是建立在数据仓库和数据挖掘工具所能提供的。由于ann和数据挖掘两者的优势互补,将神经网络用于数据挖掘具有现实意义和实用价值。人工神经网络在数据挖掘中的优势是:对于噪声数据的强承受能力,对数据分类的高准确性,以及可用各种算法进行规则提取。
人工神经网络方法常用于分类、聚类、特征挖掘、预测和模式识别。神经网络模型大致可分为以下三种:(1)前馈式网络:以感知机、反向传播模型和函数型网络为代表,主要用于预测和模式识别等领域;(2)反馈式网络:以hopfield离散模型和连续模型为代表,主要用于联想记忆和优化计算;(3)自组织网络:以自适应共振理论:(adaptiveresonancetheory,art)模型为代表,主要用于聚类分析。
在本案例应用中,主要是用前馈式网络来进行多变量的概率分布预测。因为本文目标是对用户使用几种渠道的可能性高低进行预测。
二、案例研究的实施与分析
1.业务规划的考量。对客户使用渠道的习惯偏好进行分析具有重大意义,可以对营销活动提供有力的支持。通过客户行为特征分析,寻找客户选择渠道的偏好,提供客户营销渠道的最优路径。不但有利于优化渠道资源,降低营销成本,更能提高营销成功率,提升客户满意度。
目前电信客户可以使用的移动通信服务渠道包括营业厅、电话客服、短信、网站、自助服务终端等,其中营业厅提供服务功能最为齐全,但成本也是最高;电话客服使用最为广泛,几乎每个客户都有使用电话客服的经验,也是提供最多服务的渠道,对于电信公司的用户满意度非常重要。因此,研究应用的重点之一就是如何发挥电话客服的优势,以有限资源服务更多的高价值客户和业务,减少低价值客户和业务占用客服资源的比例。同时,重点发展电子渠道,着重提高电子渠道的普及率,培养用户使用电子渠道的习惯,引导用户从传统渠道(营业厅、电话客服)向电子渠道(短信和网站)转变。
2.具体的技术实现方案:
(1)数据准备:基于业务理解以及数据分析,选取以下变量为构建模型的基础变量;(详细列表如表1所示)
(2)数据质量分析:对预处理之后的基础变量进行数据质量分析以剔除质量较差的变量;
(3)数据探索:通过可视化(visualization)工具及统计分析等方法来展示及探索各个变量的可用性,从而获得模型的输入变量。从中了解变量的重要性及业务发展规律;
(4)数据处理流程:按照挖掘任务的要求,将数据从中央数据仓库抽取生成挖掘专用的数据集市。基本的数据处理流程有:数据源的汇总合并;执行数据探索抽样;透过人工神经网络(ann)进行模型打分;产生模型并进行模型验证整体技术方案的关键点体现在两个方面:建模过程:为渠道偏好的分类预测找到合适的基础变量,有助于模型收敛更快更好;模型应用过程:应用最小长度原理,控制隐藏节点数,以达到拟合最优。另借助sas软件工具实现模型打分。
3.具体应用实现案例。根据电话、网站、短信和营业厅渠道各个评分前10%的用户,取各渠道用户的评分值、每用户平均收入(arpu)、以及在网时长的信息设计营销方案。
(1)对偏好电话的客户,通过电话营销中心外呼进行营销,完成后需要对客户进行短信感谢,同时介绍网站渠道的便利性和信息丰富的特点。
(2)对偏好网站的客户,通过短信提醒用户登录网上营业厅办理业务的优惠信息,在客户登录网上营业厅时进行营销推荐,同时考虑发展响应较高的用户群作为网站营销的种子客户,进行持续的优惠激励。
(3)对偏好短信的客户,通过短信进行营销推荐,给予短信办理业务的优惠条件,提醒客户可以尝试使用信息更加丰富的渠道——网站,并提供网站办理的简单指引。
(4)对偏好营业厅的客户,通过短信提醒客户最近的营业厅,同时推荐客户使用电话渠道,而后再通过电话引导客户使用营业厅之外的渠道,并考虑对这些客户给予业务优惠吸引他们采用。
4.渠道模型分析结果与验证。
(1)电话客服中心渠道的偏好度分析。在电话客服中心的营销活动中,电话外呼的目标客户优先选择具有电话偏好度的客户群,其次是没有明显渠道偏好的客户群,再次是营业厅偏好的客户群,针对营业厅偏好客户,可以在电话营销的时候加入向用户推荐就近的营业厅的资料。
通过电话渠道偏好客户分析,归纳出影响偏好电话客服渠道最明显的前10个参数如表2示。
其中,拨打客服次数、在网时长、总计费分钟数、是否vip客户、拨打客服平均时长、拨打声讯台次数、呼转次数这7个因素对客户的电话偏好产生正影响,也就是客户的这些参数的值越大,其偏好电话渠道的可能性就越大;而网站操作业务类型数、短信操作次数、网站登录次数这3个因素对电话偏好产生负影响,与正影响相反。
以“拨打客服次数”为例,t统计量基本显著(p-值小于显著性水平0.05),即“拨打客服次数”对因变量具有显著的解释能力,参数估计值为0.1023,即在其他控制其他变量不变的情况下,对数发生比随着“拨打客服次数”的增加而增加。
从电话渠道模型验证的角度,前10%的用户数量明显较多,因此选择前模型得分前10%的客户作为电话偏好的目标客户。从图2的曲线来看,模型得分前10%的客户覆盖实际具有电话渠道偏好客户比例达到了30%以上,因此模型提升率达到3倍以上,说明选择前10%是可以满足目前的要求。
(2)短信渠道的偏好度分析。通过短信渠道偏好客户分析,归纳出影响偏好短信渠道最明显的前9个参数:其中短信操作业务类型数、wlan使用分钟数、是否使用中文秘书、漫游计费分钟4个参数,对短信偏好产生正影响;而在网时长、网站操作业务类型数、总计费分钟数、拨打客服次数、是否使用留言信箱5个参数对短信偏好产生负影响。
由于短信办理业务的方式比较容易被年轻人接受,而在网时长比较大的客户通常是老客户,他们比较习惯使用电话,使用短信的可能性比较小,因此对比可以看出,在网时长对电话渠道是正影响,对短信渠道是负影响。
对短信渠道模型进行验证,几乎所有的短信业务办理的用户都是模型得分在20%以内的,采用短信方式办理业务的用户的得分都很高,模型覆盖率非常精确,模型评分前20%的用户几呼覆盖100%的短信办理用户,模型提升率接近5倍。说明短信渠道偏好的模型评价用户是否有短信偏好的能力较强,具有很好的预测能力。
(3)网站渠道的偏好度分析。通过网站渠道偏好的客户分析,归纳出影响偏好网站渠道最明显的前10个参数:其中网站操作业务类型数、数据业务使用种类数、是否使用号码管理3个参数对网站偏好产生正影响;而拨打客服次数、总计费分钟数、拨打客服平均时长、订购的wap服务数、是否vip客户、短信操作业务类型数、彩铃ivr买歌次数7个参数对网站偏好产生负影响。
前10大参数中,网站偏好影响为正的参数只有3个,负影响的因素则有7个,原因是参数的设置和选择目前主要来自于客户属性和使用手机的信息,这些内容通常与网站操作没有太多关联性,与网站相关的许多数据目前的系统中难以取到;另一个原因可能是网站营业厅的出现时间比较晚,能够提供的服务内容比较少。针对熟练使用网站办理业务的用户,可以提供目标性的营销发展成为公司的网站业务使用的“种子客户”,通过他们去影响交往圈的其他客户,从而提升网站办理的数量和比例,减轻对电话渠道的压力,使得电话营销中心的资源可以投放到更有生产力的活动中。
网站渠道模型评分排名前10%的客户实际验证中通过网站办理数明显高于排名靠后的其他客户,说明模型评分的准确度比较高。
三、研究案例总结
掌握好渠道偏好度的工作,能够有效地以有限的资源尽可能的服务更多的高价值的客户和业务,减少低价值客户和业务占用客服渠道资源的比例。同时,重点发展电子渠道,培养引导用户从传统渠道(营业厅和电话客服)向电子渠道(网站和短信)转变,对于电信运营商就必能产生关键性的绩效提升。
利用数据仓库再进行数据挖掘可以突破以往的技术困难限制,有效地建立高精确度的模型。构建模型时基础变量选取得当能够产生很好的适应性和普及弹性,体现涵盖不同省、市的区域差别。从上述实际的案例,也验证了应用这种crm信息技术的优越能力,一旦建立了标准模型和技术方案的实施机制,将会易于其推广便利为运营商创造显著绩效。
参考文献:
1.armstrong,g,kotler,p.marketing:anintroduction,2005.
2.eisenhardt,k.buildingtheoriesfromcasestudyresearch.academyofmanagementreview,1989,14(4):532-550.
3.kyburz-graber,r.doescase-studymethodologylackrigour?theneedforqualitycriteriaforsoundcase-studyresearch,asillustratedbyarecentcaseinsecondaryandhighereducation.environmentaleducationresearch,2004,10(1):53-65.