免责声明:以上消息未经人工确认,本平台不担保其真实性和有效性,交易前请仔细核实。
本发明请求保护一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,主要包括如下步骤:步骤1,对大数据集进行分区和管理并生成对应的弹性分布式数据集(RDD);步骤2,使用基于Spark的K‑Means聚类算法对每个分区数据进行聚类,生成多个不同的聚类成员;步骤3,通过两次评价,构造新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。本发明大幅减少了算法运行时间,提高了算法效率。