• 专利基本信息
  • 发明 2020106680108 一种混合粒度多视图新闻数据聚类方法 2022

    已下证 数据挖掘 新闻推荐 情感分析 话题发现 新闻影响力 3人

    G06F16/906 G06K9/62

    • 联系人列表
    • 12-05
    • 10-15
    • 08-26

    免责声明:以上消息未经人工确认,本平台不担保其真实性和有效性,交易前请仔细核实。

    • 专利摘要

    本发明属于数据挖掘领域,特别涉及一种混合粒度多视图新闻数据聚类方法,该方法包括:采用TF‑IDF方法对原始的混合粒度多视图新闻数据进行特征选择,得到统一标签粒度的多视图新闻数据;计算该数据的TF‑IDF值,根据TF‑IDF值数据进行映射,得到各个视图的特征向量空间;计算各个视图的信息熵以及各个视图的权重;根据各个视图的权重对特征向量空间中的值进行加权融合,得到各视图的特征矩阵;采用多视图K‑means算法对融合后的特征矩阵进行聚类;本发明通过特征选择对不同粒度进行统一的标签生成处理,使各个视图的特征统一到相同的粒度,同时通过信息熵来反映不同视图对聚类簇结构的贡献程度,从而使聚类后的效果更好。

    • 专利生命周期
    专利申请:2020-07-13
    授权缴费截止日:2025-08-13
    专利授权日:2022-07-12 00:00:00.0
    最近更新时间:2024-12-25