一种spark下的机器学习快速大规模样本签名方法-专速通专利交易平台

专利基本信息

发明 2019109831588 一种spark下的机器学习快速大规模样本签名方法 2022

已下证信息技术云计算数据挖掘深度学习 4人

联系人列表

02-21
10-15
09-25
08-30

免责声明：以上消息未经人工确认，本平台不担保其真实性和有效性，交易前请仔细核实。

专利摘要

本发明请求保护一种spark下的机器学习快速大规模样本签名方法，涉及数据挖掘技术和计算机信息处理技术。本方法为：1)读入样本数据，将样本数据转换成独有的样本格式；2)对样本数据中的高频特征进行划分，得到FeatureMap；3)设置最大广播数量，根据最大广播数量计算FeatureMap的partition；4)根据partition数量进行循环迭代，分片广播大量特征；5)最后对样本进行格式转换，得到libsvm格式的数据。本发明可以解决模型训练过程中样本签名性能瓶颈的问题，特别适用于在spark集群下训练模型。本发明虽然解决的是样本签名问题，但是由于本方法定制数据结构和分片广播可以很好的避免shuffle从而同样适用于大数据工程中的数据倾斜问题。

专利生命周期

专利申请：2019-10-16

授权缴费截止日：2024-11-18

专利授权日：2022-10-18 00:00:00.0

最近更新时间：2025-04-03

相似专利