【摘要】建立科学的管理模式是实现卫生监督行政相对人档案规范化、标准化管理的基础,作者从卫生监督行政相对人档案整理规则、建档和管理流程入手,介绍了镇海区卫生监督所行政相对人档案管理模式,并进行了优势分析,以期为同行提供借鉴。
【关键词】行政相对人档案管理模式
卫生监督行政相对人档案是卫生监督机构综合档案的重要组成部分,是单位主要职能活动的真实记录,加强这类档案的规范化、标准化、科学化管理,是深人发展卫生监督事业的重要依据和必要条件。根据《浙江省卫生监督行政相对人档案整理规则》(试行)等有关规定,镇海区卫生监督所结合实际,建立了辖区内的卫生监督行政相对人档案管理模式,现介绍如下,以期为同行提供借鉴。
1基本情况
1.1镇海区卫生监督机构基本情况
镇海区卫生监督所负责辖区内6个街道(镇)的卫生监督执法工作,目前共有在职职工36人,其中一线卫生监督人员26人,共设5个科室:办公室、综合监管科及三个分所。办公室主要负责党、政事务的综合管理;综合监管科下设发证窗口,主要负责业务工作的综合管理,包括食品卫生、公共场所卫生的统管和指导工作,全区生活饮用水卫生、化妆品卫生、职业卫生、放射卫生、学校卫生、医疗机构卫生、传染病卫生及消毒产品卫生的监督管理工作;分所主要负责管辖街道(镇)内的食品卫生、公共场所卫生的监督管理工作,并配合综合监管科完成其它类别卫生的监管工作。该所对监督员实行网格化、责任制管理,一名监督员包干负责一定数量行政相对人的监管工作。/
1.2镇海区卫生监督行政相对人基本情况
目前,镇海区共设6个街道(镇),区域面积246平方公里,总人口45.3万人。根据卫生许可(申报)数据统计,至2008年6月30日,有效卫生监督行政相对人共7500户,其中食品卫生类5678户、公共场所卫生类1198户、生活饮用水卫生类5户、职业卫生类359户,放射卫生类16户,医疗机构卫生类253户。
2卫生监督行政相对人档案整理规则
2.1归档范围
镇海区卫生监督所依法对行政相对人进行行政许可、监督管理过程中直接形成的,具有查考利用价值的各种文字、图表、磁性载体、电子文件等历史记录。凡是反映行政相对人管理的行政许可、变更、延续、复核、日常监督管理、不良行为、注销等活动的文件材料均属归档范围,该所制订了详细的《行政相对人文件材料归档范围和保管期限表》。
2.2归档要求
2.2.1归档文件材料必须是原件,能齐全、完整地记录对卫生监督行政相对人管理的全过程。
2.2.2纸质文件材料的纸张质量和规格符合要求,字迹材料必须使用碳素墨水、蓝黑墨水等符合档案要求的耐久性材料。如原件为圆珠笔字迹、传真件、复写件等有不耐久性字迹材料的,应复印一份附在原件后作为一份材料一并装订,且应编页号,并在复印材料正上方的空白处写上“复制件。//html/jianli/
2.2.3归档文件材料不得带有普通钉书针、回形针等易腐蚀的金属物,应去除后归档。
2.3保管期限
卫生监督行政相对人档案的保管期限以申请单位的有效期为准,一般在申请单位歇业满五年后,即可销毁。
2.4归档时间
卫生监督行政相对人的文件材料处理完毕后,各科室(分所)应及时收集、整理,当年的所有文件材料最迟应在次年一月底前归档,具体时间为:(l)行政许可、变更、延续文件材料应于卫生行政许可出证之日起二个月内归档;(2)复核(年检)、注销文件材料应在工作结束后一个月内归档;(3)监督管理活动的文件材料应及时收集,可按年度整理,最迟应在次年一月底前归档;(4)不良行为文件材料(即不良行为登记卷目录及行政处罚决定书复印件)自结案之日起一个月内完成资料收集和卷目录登记工作,次年一月底前完成组卷归档工作。
2.5归档方法
2.5.1卫生监督行政相对人整理成相对独立的保管单位,行政相对人的管理文件材料按照卫生许可证发放,建立一证一档,职业危害企业按申报建档,建立一户一档。若一个行政相对人有多种监督类别,按许可证分别建档。一个行政相对人档案可以整理成一盒或若干盒,如多盒应排列在一起,并在档号后编上分号,如:***一1、。。。月。//zuowen/
2.5.2一个行政相对人档案分别由行政许可(申报)、变更、延续、复核、日常监督管理、不良行为、注销共七类的若干卷组成(以下简称七类)。以同一年度下每一类的文件材料为一卷(件)整理归档。
2.5.3档号编制
2.5.3.1制订全宗内行政相对人档案的各类代码:(1)10种卫生监督类别分别用“01一“10代码表示;(2)6个街道、镇(即地区)分别用a、b、c、d、e、f代码表示。
2.5.3.2各类行政相对人档案,档号由“监督类别及地区号一案卷号组成,“监督类别及地区号填写监督类别与地区的组合代码,一个监督类别同一地区的档案编一个流水号,如“ola一0015。
2.5.3.3档案编制流水号时,按照许可(申报)的时间顺序(如时间相同按照许可证号顺序)排列、编号。
2.5.4目录编制
2.5.4.1行政相对人登记档案目录。包括档号、行政相对人名称、行政相对人地址、许可证号(或申报号)、发证日期、注销日期、备注七项内容,为便于分别检索、统计食品卫生中餐饮业、生产加工业、自制零售业、食品经营业的行政相对人档案,要求在“备注栏中填写相应类别的代字:餐、生、自、经。
2.5.4.2盒内目录。盒内目录分总目录和分类卷目录。/
2.5.4.2.1盒内总目录。包括件号、内容、日期、页数、备注五项,放在盒内文件材料的最上方,在该年度资料整理装订完毕后填写。每盒编一个流水件号,并按年度一类别排序填写,同一年度按照“七类的顺序,产生几类文件材料依次填写,没有文件材料的类别不用填写。
2.5.4.2.2卷目录(即件内目录)。卷目录放在该卷文件材料的最上方,根据“七类卷的性质不同,项目设置有所区别,“不良行为登记卷目录包括序号、处罚文号、案由、起止日期、违法事实、处罚决定、备注七项内容,其余“六类卷目录包括序号、文号、文件题名、日期、页号、备注六项内容。在各类卷目录右上方设置档号章,包括全宗号、类别号、案卷号、件号四项内容。同一年度每一类的卷内文件材料应将结论性的放在前面(如许可核准单),其余按文件材料依次形成的时间顺序排列、编序号。
1行政执法主体方面的案例
案例一:案例描述:某县档案局在年终工作总结中写道:一年来,为落实《档案法》及其实施办法、《河南省档案工作条例》,促进全县档案事业的健康发展,我局先后联合县委办公室、县人大办公室等部门,组成档案行政监督检查组,对全县的档案管理情况进行了2次联合检查,共查处档案违法行为18起,并对7起较为严重的档案违法行为下发了《责令限期改正通知书》,及时纠正了个别单位在档案管理中的违法行为,有力地促进了全县档案事业的健康发展。存在问题:县委办公室、县人大办公室是档案行政监督检查的主体吗?案例评析:依据我国法律规定,行政执法必须由行政执法主体来执行。那么,何为行政执法主体呢?根据行政法学原理,所谓行政执法主体,是指依法成立并享有国家行政执法权力,能以自己的名义从事行政执法活动,能独立承担由此而产生的法律后果的机关或者组织。国务院印发的《全面推进依法行政实施纲要》(以下简称《纲要》)将此类机关和组织分为三类:一是行政机关;二是经法律、法规授权的非行政机关的组织;三是经行政机关委托的非行政机关的组织。《纲要》明确提出,要建立健全行政执法主体资格制度,行政执法由行政机关在法定职权范围内实施,非行政机关的组织未经法律、法规授权或者行政机关的委托,不得行使行政执法权。本案例中,某县档案局联合县委办公室、县人大办公室组成档案行政监督检查组,查处档案违法行为的具体行政行为,明显是一种档案行政执法具体行政行为。根据行政法学原理和《纲要》要求,上述三个执法主体必须是档案行政主体,或者必须经法律、法规的授权。那么,县委办公室、县人大办公室是否具备上述条件呢?首先看地方人大是否具备上述条件。根据《地方各级人大组织法》的相关规定,地方各级人大是地方的最高权力机关,不是权力执行机关,也就是说不是行政主体。虽说其具有保证档案法律、法规贯彻执行的监督职能,但这种监督职能是法制监督,是对权力执行机关的监督,不是对具体行政相对人的监督,不具有对行政相对人实施具体行政执法行为的资格。再看地方党委是否具备上述条件。按照我国政治体制原则,地方党委是地方各项事业的领导机关,是党团组织,其领导职责主要是方针政策、组织上的领导,并不是行政主体,也不具备法律、法规所规定的行政执法主体资格。综上所述,地方党委、人大既不是档案行政管理的行政主体,也不是法律、法规授权进行档案行政执法的执法主体。案例中,县委办公室、县人大办公室是县委、县人大的内部协调办事机构,其机构性质从属于县委、县人大,自然也不是档案行政执法的主体,不具备档案行政执法的主体资格。其直接参与档案行政监督检查的做法,是与法律的规定和《纲要》的要求相背离的,是一种无效的行为。
案例二:案例描述:2006年7月,某县档案局法制科电话通知所辖各乡镇,为加强汛期档案安全保管,确保档案安全度汛,县档案局法制科将组织人员对全县所有乡镇综合档案室档案保管情况进行监督检查。检查中发现有两个乡镇综合档案室库房存在漏雨现象,当即下发了《责令限期改正通知书》,要求这两个乡镇在15天内改善库房保管条件,确保档案安全,并将整改情况书面报档案局法制科。《责令限期改正通知书》落款是某县档案局法制科,并加盖了某县档案局的公章。存在问题:某县档案局法制科是档案行政监督检查的主体吗?案例评析:按照行政法学理论和法律、法规规定,行政机关必须依法设定,是重要的行政主体,代表国家或地方独立进行行政管理。行政机关的内设机构是行政机关的内部组成部分,虽然具体履行着行政机关的职能,但其并不是行政主体,没有对外的行政管理权,也不对外承担相应的法律责任。在具体的行政监督检查活动中,行政机关的内设机构可以代表行政机关进行执法,但只能以行政机关的名义进行,而不能以内设机构自己的名义擅自作出。由此可见,行政机关的内设机构非经法律、法规的授权,是不具有行政执法主体资格的。本案例中,某县档案局法制科制发的《责令限期改正通知书》虽然盖的是档案局的公章,但其电话通知、《责令限期改正通知书》落款均是法制科,应视为此次行政监督检查是法制科以自己的名义做出的具体行政行为。而法制科是档案局的内设机构,按照法律、法规的规定,依法不具有对外进行档案行政监督检查的职权,也不具有进行档案行政监督检查的主体资格,因此,某县档案局法制科以自己名义进行的档案行政监督检查和制发的《责令限期改正通知书》,是违法的行政行为和无效的执法文书。
2行政执法人员方面的案例
案例三:案例描述:河南省某县档案局、馆合署办公,是县委、县政府直属的文化事业单位,履行全县档案事务的行政管理和全县档案的安全保管双重职能。局馆共有工作人员13名。其中,只有甲、乙、丙三人通过考试取得了行政执法资格,拥有省人民政府统一颁发的《行政执法证》。在每年例行的档案行政监督检查中,该县档案局一直采取由甲、乙、丙三人分别带队,另外调配其他三名工作人员,组成三个监督检查组(每组两人)的形式开展档案行政监督检查工作。存在问题:其他三名工作人员参加行政监督检查组合法吗?案例评析:根据行政法学原理,行政执法工作必须由具有行政执法资格的工作人员来履行,不具备行政执法资格的人员不得从事行政执法工作。河南省《〈行政执法条例〉实施办法》(以下简称《办法》)规定,行政机关应当按有关规定对行政执法人员进行培训,定期考核,经考核不合格者不得上岗执法。经考试和考核合格,取得《河南省行政执法证》的,方可上岗执法;未经执法培训或者经考试、考核不合格,未取得《河南省行政执法证》的,不得上岗执法。而河南省人民政府《关于实行持证上岗亮证执法的通告》(以下简称《通告》)则更明确地规定,《执法证》是行政执法人员行使执法权的资格证明。未依法取得《执法证》的,无权从事行政执法工作。从上述行政法学原理和河南省的地方法规、规章规定看,行政执法是一种职务行为,只有具备行政执法资格的工作人员,才可以进行行政执法活动。不具备行政执法资格的工作人员从事行政执法工作,则是一种不合法的职务行为,应当严令禁止。本案例中,另外调配的其他三名工作人员与具备行政执法资格的甲、乙、丙三人搭配,组成档案行政监督检查组,虽然符合每次档案行政监督检查不得少于两人的规定,但是,另外调配的其他三名工作人员既没有接受过行政执法培训,也没有取得《办法》规定的行政执法资格和《河南省行政执法证》,按照该省《通告》的规定,另外调配的其他三名工作人员是不具备从事行政执法资格的人员,无权在其辖区内从事档案行政监督检查工作。由此可以看出,某县档案局由甲、乙、丙与不具备行政执法资格的其他三名工作人员组成档案行政监督检查组的做法是错误的。
3档案行政相对人适格方面的案例
案例四:案例描述:某县档案局在例行档案行政监督检查时,发现人民银行某县支行1992年~2000年的文书档案没有依法向该县档案馆移交。该支行不移交档案的理由是:人民银行是金融特殊行业,实行行业垂直管理,保密性强,按照上级规定,其档案不移交当地档案馆。监督检查人员要求该支行提供不移交档案的上级行文件规定。该支行提供不出具体文件。监督检查人员合议后认为:该支行提出的不移交理由不成立。按照《档案馆通则》和《各级国家档案馆收集档案范围的规定》,该支行的文书档案属于向该县档案馆移交范围内的档案,应当依法按时移交。责令该支行立即纠正错误做法,并据此下达了《责令限期改正通知书》。《责令限期改正通知书》中写道:人民银行××县支行档案室:2013年9月13日上午10点,我局对贵档案室进行了例行监督检查,经检查发现,贵档案室保管的1992年~2000年的文书档案没有依法向××县档案馆移交(具体案卷情况见《清查档案清单》),此行为违反了《档案馆通则》和《各级国家档案馆收集档案范围的规定》的有关规定,特责令贵档案室在一个月内(2013年9月13日~2013年10月13日)纠正违法行为,依法向××县档案馆移交附件《清查档案清单》中的档案,并将整改情况书面报××县档案局。人民银行××县支行接《责令限期改正通知书》后,经请示其上级行郑州分行和济南中心行后,按时移交了应移交的档案。存在问题:某县支行档案室是档案行政管理机关的行政相对人吗?
案例评析:行政主体和行政相对人是构成行政法律关系的主体,双方相互作用,促使行政法律关系的产生、变更和消灭。基于行政法律设定条件的行政关系主体,是一种相对稳定和平衡的法律关系。只有当行政主体就是法律所规定的对行政相对人发生作用的“那个”行政主体,行政相对人是法律所规定的行政主体必须针对的“那个”行政相对人时,行政法律关系才能实现相对的稳定。行政相对人包括个人或组织,在行政法律关系中,行政相对人与行政主体相对应而存在,是行政法律关系中的重要“一极”。如果一个行政法律关系中的所谓“行政相对人”并不是法律所规定的行政主体可以或者必须针对的当事人,则这个行政法律关系就可能立即崩溃。换句话说,就是行政执法中,行政主体找错了对象,虽然也在行政主体与错误的对象之间产生了行政法律关系,但这种行政法律关系的稳定性却是无法保证的。如果行政执法中张冠李戴,就意味着对行政相对人主体的认定不合法律规定,意味着整个行政执法行为认定事实不清,属于违法行为。《中华人民共和国档案法》第六条第二款规定:县级以上地方各级人民政府的档案行政管理部门主管本行政区域内的档案事业,并对本行政区域内机关、团体、企业事业单位和其他组织的档案工作实行监督和指导。由此可以看出,基于《档案法》基础上的档案行政法律关系,其档案行政主体是各级人民政府的档案行政管理部门,其行政相对人是本行政区域内的机关、团体、企业事业单位和其他组织。具体到本案例中,档案行政监督检查的主体是某县档案局,其针对的“行政相对人”应该是人行某县支行,而不是人行某县支行档案室。人行某县支行档案室作为该行的内设职能机构,可以代表该行行使其一定的职能活动,但不具有机构法人地位,不能成为某县档案局档案行政监督检查的“行政相对人”。其职能活动当中产生的法律责任只能由具备机构法人资格的人行某县支行承担。案例中,某县档案局监督检查人员制作的《责令限期改正通知书》,将人行某县支行档案室认定为“行政相对人”的做法,属于张冠李戴,认定事实不清的违法行为。
4行政执法程序方面的案例
案例五:案例描述:2009年6月20日,河南某县档案局行政执法人员张某、刘某到所辖乡镇监督检查2008年文件归档情况。张某、刘某来到C镇时,负责C镇档案工作的主管领导镇党委办公室主任吴某接待了他们。执法人员张某与吴某相互认识,双方相互寒暄后,吴某向张某、刘某介绍了该镇2008年文件归档的大致情况。随后,吴某陪同张某、刘某对该镇档案室2008年文件归档情况进行了现场检查。检查中发现,该镇文件归档不全,缺少2008年的《干部职工统计年报》、《党员统计年报》、党委会议记录等应归档的文件材料。现场检查结束后,张某、刘某向吴某和档案员通报了现场检查情况,要求将缺少的《干部职工统计年报》、《党员统计年报》、党委会议记录等应归档的文件材料收集齐全,及时归档。存在问题:张某、刘某进行的此次监督检查程序是否完善?
案例评析:行政执法程序是指行政执法的管辖、过程、步骤、顺序、时限、方式等内容和环节的总称。程序正当是依法治国对行政机关依法行政提出的最基本要求。其主要作用是:规范行政执法行为,防止行政执法的随意性;保障行政相对人参与国家行政管理,监督和制约行政机关依法办事;协调行政机关和行政相对人的关系,达到消除对立情结、构建和谐社会的目的。虽然我国还没有制定一部完整的行政执法程序法律,但各单行法律、法规和规章中对行政执法的程序性规定,无疑是行政执法中应当严格遵守的原则。行政法学原理将各单行法律、法规和规章中有关程序性的规定归纳为以下几种:一是执法公开制度;二是表明身份制度,三是告知制度;四是听取陈述和申辩制度;五是听证制度;六是回避制度;七是时效制度;八是说明理由制度;九是调查取证制度;十是行政执法文书制度。在具体的行政执法实践中,行政机关和行政执法人员必须按照相关单行法律、法规和规章规定的执法程序进行执法活动,否则,就会造成执法程序违法,承担因程序违法而造成的法律后果。本案例中,张某、刘某进行的此次监督检查违反了表明身份的程序规定。按照行政法学原理,出示证件,表明身份是行政执法的重要环节和步骤,凡是与行政相对人直接打交道的行政执法活动,都要遵守、不得省略。不出示证件表明身份的,属程序违法,行政相对人有权拒绝。河南省人民政府《关于实行持证上岗亮证执法的通告》也规定:《执法证》是行政执法人员行使执法权的资格证明。行政执法人员开展行政执法工作,必须向公民、法人或其他组织出示《执法证》,以表明身份。不出示《执法证》表明身份的,属于行政执法程序违法的行为,公民、法人或其他组织有权拒绝,并有权向县级以上人民政府法制机构投诉,也可以向人民法院。案例中,虽然张某与吴某相互认识,也不能违反法律、法规和规章所规定的程序,否则,一旦有不良后果出现,就会造成此次档案行政监督检查行为程序违法,使档案局陷入被动局面。此外,该案例中,张某、刘某进行的此次行政监督检查,没有制作《现场监督检查记录》,没有将C镇文件归档不齐全的违法事实记录固定下来,也是一种不符合行政执法程序的违法行为。
5行政执法文书方面的案例
案例六:案例描述:某县档案局在对该县林业局进行例行监督检查时发现,有3卷涉及机构编制、干部职工年报、花名册的永久卷不知去向,查阅该局《档案借阅登记本》,也没有此3卷档案的借阅登记记录。询问档案员时,档案员也说不出档案的确切去向。据此,某县档案局当即对林业局下发了《责令限期改正通知书》,要求该林业局在15天内追查出档案的去向,并将追查结果书面报告县档案局。逾期不报追查结果,将立案查处,追究有关人员的行政责任。在规定的整改期限内,该林业局书面答复称:去向不明的3卷永久档案,系该局会计在办理局机关人员工资调整时借出,遗忘在了县财政局工资福利股,现已收回,并对相关人员进行了批评教育。存在问题:此次行政监督检查的执法文书完善吗?案例评析:行政执法文书是行政机关在行政执法活动中制作的,用以记载和证实行政执法过程的各种材料,是记录行政执法过程情况、认定事实、内容的法律文书载体。根据行政法学原理,在具体的行政执法活动中,有些具体的违法事实,在没有书证、实物、影像的情况下,必须通过制作相应的行政执法文书,来记载违法事实的情况,使违法事实得以固定,以支撑行政执法后续行政处理的开展。制作行政执法文书,也是行政执法程序不可缺少的重要环节。只有完备的行政执法文书,行政执法的过程才能完善,才能善始善终。
关键词:数据流;半监督学习;集成分类;概念漂移;混合集成
中图分类号:TP18文献标识码:A文章编号:1009-3044(2013)34-7770-06
数据流分析和挖掘在数据挖掘和机器学习领域是一个具有挑战性的研究,它已经受到了计算机智能研究者的广泛关注[1-3]。与传统的静态数据相比,数据流具有动态性、高维度、实时性、无限性、顺序性和高速到达等特点[4],正是这些特点使得传统方法难以实现数据流的挖掘。而数据流分类是数据流挖掘的其中一种,它是从大量数据样本中提取知识和信息的过程,而这些样本中隐含的概念和知识可能随着时间和环境不断的发生变化,即存在的概念漂移[5]给研究带来了挑战。因此,一个高效的数据流分类算法需要在有限的时间和内存下以相当好的准确度完成任务,并且能够自适应地处理概念漂移。
在已有研究中,解决概念漂移问题的方法概括起来有三种[6]:实例选择、实例加权和集成学习。近年来研究最热的当属集成学习方法[7-9],它克服了运用滑动窗口方法参数难以确定的缺陷。尽管集成学习已经取得了相当客观的研究进展,但它是典型的有监督学习,需要大量的类标数据进行训练学习。而且标记数据是一个耗时又费力的工作,因此便有了近年来半监督学习的研究[10-12],它通过引入未标记数据来提高分类器的泛化性能。可以说近年来集成学习和半监督学习的研究都有了新的突破,但将两者融合来改善分类性能的研究还是凤毛麟角。2002年Bennett等人[13]提出使用标记和未标记数据共同构造集成分类模型,文中主要运用Boosting方法,它的缺点在于没有一种机制来控制对无类标数据标记的错误率;在文献[14]中Woolam等人融合半监督聚类和集成方法先将无类标数据进行标记,当标记数据占到一定比例时再对数据进行聚类,再运用类标传播技术为剩余无类标数据进行标记,最后更新集成分类器,这样当数据量很大时类标传播会耗费[Ο(n3)]的时间。
基于上述研究中存在的缺陷,该文将集成学习和半监督学习有效的融合,提出一种基于半监督学习的混合集成分类算法(Semi-SupervisedlearningBasedMixtureEnsembleClassifier,SMEClass),由于引入未标记数据,使得集成分类器的准确性和泛化性都得到了改善,而且在对未标记数据进行标记时使用集成分类器和在数据块已有的类标数据集上训练的分类器一同进行多数投票,更增加了被标记数据的可信度。同时,在算法中也使用了概念漂移检测和噪声过滤的机制,以便能够更有效的适应含噪音和概念漂移的数据流分类。
1SMEClass算法模型的训练和分类的流程
数据流分类挖掘面临着两大难题,一是概念漂移和噪音的影响,二是数据流实例标记的高额代价,很少有算法能高效地实现两者的兼顾,因此在标记样本少的情况下,既能兼顾概念漂移和噪音影响,又能确保分类的精度将是一个挑战,SMEClass能够解决这些问题,它假设数据流中的样本数据有一部分是随机标注的,然后使用我们的集成方法来对这些数据中的未标记实例进行标记,以增加分类的性能,而且在训练过程中进行了漂移监测和噪音过滤。
由于数据流的特性,在此算法中使用C4.5和Na?veBayes作为基础分类器来构建混合集成模型,在每个数据块上使用类似于self-training的方法来进行半监督学习。
首先对方法中涉及到的符号进行说明:如表1所示。
2SMEClass算法
2.1算法的合理性论证
数据块到达后,用其中的有标记数据训练一个C4.5分类器,使用这个分类器和集成分类器一同对未标记数据进行预测,如果预测错误率小于随机错误率,则将这个预测类标作为此数据的类标记。在最坏的情况下,当有噪音实例时,如果拥有足够的类标数据,就能降低分类的错误率,为了达到这样的效果,借鉴了文献[16]中的思想。
2.2算法的执行过程
3数据流变化的检测和识别
3.1概念漂移的检测
3.2噪声数据的过滤
为了降低噪音数据对概念漂移检测的影响,集成模型中增加了一个朴素贝叶斯分类器,这是因为Na?veBayes算法简单、速度快、准确率高,还有一个重要的特性就是对噪音数据相当敏感,利用它的统计特性,能够及时地发现数据中的噪音,以达到噪音过滤的效果。
使用这个计算方法,在[K+1]个分类器进行投票时,如果实例被一半以上的决策树分类器和Na?veBayes分类器同时分类错误,那么概念就存在潜在的漂移,将分类错误的实例放入缓冲区;反之,认为是噪音,不用其构建新的分类器,这样就减少了那些噪音数据对漂移检测的影响。
4实验及结果分析
基于人工数据集、UCI提供的真实数据集和已有的半监督集成分类方法SEClass[15]进行对比测试。分别从算法的准确率、运行时间和可扩展性三个方面验证SMEClass方法的有效性。实验运行环境为:1.73GHz英特尔奔腾双核PC机,1GB内存,WindowsXP操作系统。
为了实现算法,在实验中使用MOA平台,SMEClass的参数设置如下:[K=8](基分类器个数),[d=5000](数据块大小);SEClass参数如下:[L=8](基分类器个数),[K=50](微簇个数),[M=5000],[e=0.9]。采用先测试再训练的顺序,这样可以有效显示模型的泛化能力。
人工数据集包括HyperPlane、RandomRBF、RandomTree、SEA和Waveform。具体构造见文献[9],真实数据集采用UCI提供的ForestCovertype。
表2显示了数据集的相关信息,这里对数据集分成大小固定为1000的数据块,使他们分批到达来模拟数据流的特性。
4.1算法准确率分析
算法的准确率如表3所示,由于现实生活中获得已标记数据代价太大,在实验数据集中我们只利用[20%]的已标记数据,其余[80%]的数据是未标记的,而且在实验过程中增加了噪音数据和噪音属性,以测试SMEClass算法对噪音数据的过滤能力和对含噪音属性数据集的学习能力。
由于文献[15]中有两个属性权值处理方式,SEClass-I在训练中不调整属性权值,SEClass-II在训练迭代过程中动态调整属性权值,通过对比实验结果可以发现SMEClass和SEClass-II的准确率较高,由于SEClass-II动态调整属性权值可以减少噪音属性的影响,而SMEClass是采用的C4.5决策树分类模型,也能实现这一点,叶节点在分裂的过程中会选择具有最大增益率的属性进行分裂,这样每次都能选择最重要的属性。而且SMEClass采用的贝叶斯分类器还能够有效降低噪音数据对准确度的影响,而SEClass没有考虑噪音数据的影响,因此在同时含有噪音属性和噪音数据的情况下,SMEClass的分类准确率要略胜一筹。
4.2算法的运行时间和可扩展性
在人工数据集RandomRBF上测试SMEClass算法和SEClass算法,改变数据集的属性维度[d]来测试两个算法在高维数据情况下的运行时间,从而检验算法的可扩展性。实验结果如图2所示,纵坐标代表算法训练时间和测试时间之和。
观察实验结果,两个算法的运行时间都随属性量的增加呈线性增长趋势,这是因为在训练基本分类器和测试过程中他们都是和属性数量成线性关系的,但SMEClass的时间明显少于SEClass,这是因为SEClass算法在聚类过程中需要频繁计算实例间的距离,浪费了大量的时间,而SMEClass算法不存在这样的问题,因此在时间上有明显优势。这说明SMEClass算法在处理高维数据流时比较稳定,具有良好的可扩展性。
5结束语
针对数据流类标数据获取困难这一现状,该文提出将集成学习和半监督学习有效结合的一种分类算法SMEClass,算法在数据块上采用类似于self-training的学习方法将置信度高的无类标数据赋予标记后加入类标集来改善基分类器的性能,由于在标记过程中使用了集成分类器的多数投票机制,这使加入的无类标数据更加可靠,而且增加了一个Na?veBayes分类器用来去除数据所含噪音,及时更新集成分类器以适应概念漂移。
实验表明,与基于聚类的半监督数据流集成分类算法SEClass相比,SMEClass算法具有更高的准确度和较强的抗噪性,而且免去了存储大量微簇的空间,且运行时间随属性维度的增加呈现线性增长,具有一定的可扩展性,因此本文的算法能够用于高维数据流分类问题。
参考文献:
[1]LiaoSH,ChuPH,HsiaoPY.Dataminingtechniquesandapplications-Adecadereviewfrom2000to2011[J].ExpertSystemswithApplications,2012,39(12):11303–11311.
[2]ReadJ,BifetA,HolmesG,PfahRINGERB.Scalableandefficientmulti-labelclassificationforevolvingdatastreams[J].MachineLearning,2012,88(1-2),243–272.
[3]白雪冰,王宝军.数据流分类算法分析[J].电脑知识与技术,2012,8(11):2445-2446.
[4]ZliobaiteI.Learningunderconceptdrift:anoverview[R/OL].Technicalreport,VilniusUniversity,2009.http:///pdf/1010.4784v1pdf.
[5]WidmerG,KubatM.Learninginthepresenceofconceptdriftandhiddencontexts[J].MachineLearning,1996,23(1):69-101.
[6]HoS-s,WechslerH.AMartingaleframeworkfordetectingchangesindatastreamsbytestingexchangeability[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(12):2113-2127.
[7]ScholzM,KlinkenbergR.AnEnsembleClassifierforDriftingConcepts[C]//Proceedingsofthe2ndInternationalWorkshoponKnowledgeDiscoveryinData
Streams.Portugal:Porto,2005:53-64.
[8]AggarwalCC,HanJ,WangJY,etal.AFrameworkforOn-DemandClassificationofEvolvingDataStreams[J].IEEETransactionsonKnowledgeandDataEngineering,2006,18(5):577-589.
[9]BieftA,HolmesG,PfahringerB,etal.NewEnsembleMethodsforEvolvingDataStreams[C]//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMing.France:Paris,2009:139-148.
[10]ChapelleO,ScholkopfB,ZienA,editors.Semi-SupervisedLearning[M].Cambridge:MITPress,2006.
[11]ZhuX.Semi-supervisedlearningliteraturesurvey[R/OL].TechnicalReport1530,DepartmentofComputerSciences,UniversityofWisconsinatMadison,2006.http://cs.wisc.edu/jerryzhu/pub/ssl_survey.pdf.
[12]ZhouZH,LiM.Semi-supervisedlearningbydisagreement[J].KnowledgeandInformationSystems,2010,24(3):415-439.
[13]BennettK,DemirizA,MaclinR.Exploitingunlabeleddatainensemblemethods[C]//Proceedingsofthe8thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.Canada:Edmonton,2002:289–296.
[14]WoolamC,MasudMM,KhanL.LackingLabelsinthestream:Classifyingevolvingstreamdatawithfewlabels[J].FoundationsofIntelligentSystems,2009,5722:552-562.
[15]徐文华,贾征,常扬.基于半监督学习的数据流集成分类算法[J].模式识别与人工智能,2012,25(2):292-299.