分类与聚类的区别及中文短文本聚类实战

新知榜官方账号

2023-11-15 16:31:09

分类与聚类的区别

分类是根据文本的特征或属性,划分到已有的类别中。聚类则是将数据或者说用户聚合成几个群体,通过聚类分析将数据聚成一个簇,簇的中心叫做簇心。分类属于监督学习,聚类属于无监督学习。

中文短文本聚类实战

本文演示了K-mean和PCA在中文短文本聚类中的应用,通过将文字向量化的过程,将文本转化为数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。

本次实战使用了CNKI的一批音乐教育文章的题目进行聚类,通过TF-IDF设置权重,将文字向量化,再使用K-mean完成聚类,最后使用PCA进行降维,并通过可视化展示了聚类结果。

本页网址:https://www.xinzhibang.net/article_detail-20087.html

寻求报道,请 点击这里 微信扫码咨询

关键词

分类 聚类 中文自然语言处理 短文本聚类 K-mean PCA

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯