绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
检索详情页
首页 > 成果首页 > 可探测新颖类别的数据流分类技术
添加标签
×
已添加(0/5):

推荐标签:

可探测新颖类别的数据流分类技术
成果信息
立项支持
  • 公布年份:
    2017
  • 中图分类:
    G254.1
  • 关键词:
  • 成果简介:
    课题来源与背景:数据流分类问题一直是数据流挖掘研究领域中的一个重要内容。 针对具有概念漂移的数据流分类问题已有不少研究,然而数据流不但包含已知类别间的演变(概念漂移),还包含已知类别到未知类别的演变(新颖类别)。因此,一个好的分类模型还应该具备对新颖类别的探测能力。研究目的与意义:新颖类别探测是一种重要的学习模式,其任务就是对那些与训练数据有较大差别的测试数据进行分类。国外已有不少关于新颖类别探测方面的研究,但国内这方面的研究还刚刚起步。新颖类别探测在现实生活不同领域中具有较广泛的应用。 比如,IT 安全、医疗诊断、工业监测、图像处理与视频监控、文本挖掘、传感器网络等等。该课题主要研究数据流上新颖类别的探测和分类技术,它是解决数据流概念演变导致出现的新颖类别问题的基础,同时也是解决数据流概念漂移问题的基础。高性能的可探测新颖类别的分类算法不仅可以增强算法的鲁棒性和可靠性,而且对数据流分类技术的应用具有现实意义。主要论点与论据:提出基于可变尺度滑动窗口的改进算法WCE-D。改进的算法WCE-D相对于已有的新颖类别探测框架采用的算法WCE引入了概念漂移检测机制,从而可以依据流数据的分布变化来判断概念漂移,并依据漂移状态决定是否学习和更新分类模型并调整窗口(数据块)大小。实验结果表明,在处理相同的数据流时,WCE-D算法的分类耗时更低,且具有和WCE近似的分类准确率。提出了改进聚类算法k-prototypes++。实验结果表明,k-prototypes++算法相对于k-means和k-prototypes算法的聚类效果更好,速度更快。使用数据流快速决策树算法VFDTc作为新的基分类器以提高数据流处理效率。实验结果表明,以VFDTc为基分类器的集成算法相对于以C4.5为基分类器的集成算法获得了较小的建模耗时和集成模型大小,且在处理相同的数据流时两种方法具有近似的分类准确率。创见与创新:针对已有的可探测新颖类别框架大多将数据流分成固定大小的数据块,以及频繁更新分类模型,导致分类准确率较低和处理速度较慢的问题,提出基于可变尺度滑动窗口的改进算法 WCE-D; 针对已有框架中采用的聚类算法随机选择初始中心点与不能处理混合属性,且均假定数据对象所有属性具有相同的权重不符合实际情况的问题,结合k-means++的初始中心点选择算法、混合属性的差异度度量标准和属性加权技术,提出了改进聚类算法 k-prototypes++和 w-kmeans++;采用改进的 WCE-D 算法作为分类算法框架以提高分类精度和分类速度,并采用改进的聚类算法 w-kmeans++来聚类探测新颖类别,以提高新颖类别探测精度,最终完整提出一种在概念漂移的数据流中可探测新颖类别的集成分类算法 DNCS。社会经济效益,存在的问题:研究工作还仅仅处于理论研究阶段,后续工作应考虑将新颖类别探测技术应用到实际环境中,比如图像处理、视频监控和文本挖掘等领域。历年获奖情况:公开发表论文5篇;EI收录2篇;参加“中国软件杯”大赛获奖1项。
相关论文(与本文研究主题相同或者相近的论文)
我的标签
您可以为文献添加知识标签,方便您在书案中进行分类、查找、关联
请输入添加的标签
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部