绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
检索详情页
首页 > 成果首页 > 有监督学习关键问题算法创新与应用
添加标签
×
已添加(0/5):

推荐标签:

有监督学习关键问题算法创新与应用
成果信息
立项支持
  • 公布年份:
    2015
  • 中图分类:
    Q811.4
  • 关键词:
  • 成果简介:
    信息与大数据时代并不缺乏数据,缺少的是对数据深入分析、获取知识的有效算法。有监督学习广泛见于生物信息学、模式识别与预测等多个领域。对单因变量、多自变量非纵向数据集(y<,i>,x<,i,j>),i=1,2,…,n;j=1,2,…,m;n为样本数,m为自变量(特征)数。无关、冗余特征影响学习精度;从m个特征中选取一套最优特征子集理论上有2<'m>种组合,属非多项式时间NP-hard问题,在m较大时无法穷举。因变量与特征间往往存在复杂的非线性关系,传统的逐步线性回归应用受限;仅考虑因变量与某个特征关联的单变量过滤法不能反映多个特征互作对因变量的影响。因此,发展考虑互作的非线性高维特征选择有效算法是有监督学习的首要关键。课题组基于支持向量机SVM创建了高维特征非线性选择方法二元矩阵重排过滤器BMSF。BMSF考虑了特征间的互作关系,通过引入一个中间(0,1)矩阵,巧妙地降低了计算复杂度,在多个癌基因表达二分类数据集上获得成功应用。论文发表后迅即标为Highly accessed, SCI他引4次;多个国内外课题组发来email希望交流算法代码。“知其然,并知其所以然”是有监督学习的第二个关键。SVM的主要缺陷是可解释性差,课题组基于F测验对支持向量回归SVR建立了一套完整的非线性解释性体系,SCI他引4次,进一步将BMSF和非线性解释性体系应用于化合物定量构效关系、多肽定量序效模型等,也获得了满意结果。需要训练是多数学习机器产生过拟合的主要原因,发展基于转导推理、无需训练的直接推理器是有监督学习的第三个关键。TSP家族是针对癌信息基因选择与分类的主流算法,课题组克服TSP的多个缺陷,基于卡方测验发展了鲁棒的高维特征选择与无需训练的直接分类新算法TSG,首次提出并实现了直接分类,在多个癌多分类数据集上获得了优异结果。论文发表后,SCI他引4次,课题组获得了the 4<'th>World DNA and Genome Day (WDD-2013)组委会的小组发言邀请,受邀为BMC Genomics等审稿2次。特征选择完成后,由于各保留特征对因变量影响不一,如何表征待测样本与训练样本的距离、如何针对不同待测样本选取K近邻的最优K值是有监督学习的第四个关键。课题组以SVR获取各保留特征的非线性权重,用高维地统计学GS确定公用变程;每一个待测样本都以自身为中心从训练集中找出加权距离小于公用变程的私有K个近邻,以SVR训练建模完成个性化预测。新方法在多个回归数据集上的预测表现优势明显。项目总计发表论文20篇,均为国内完成;其中SCI论文16篇,累计IF 24.681,IF>3的论文3篇,SCI他引总次数16,累计IF 49.123, SCI单篇最高他引次数4,SCI单篇最高影响因子3.653。
相关论文(与本文研究主题相同或者相近的论文)
我的标签
您可以为文献添加知识标签,方便您在书案中进行分类、查找、关联
请输入添加的标签
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部