在数据挖掘中使用鲁棒的聚类算法例如基于密度的方法这些算法对异常值不太敏感。 对属性进行加权以便不太重要的属性中的噪声不会主导相似性度量。 使用集群集成和共识集群来抵御数据错误。 暗示某些点应如何聚类的半监督技术可以改善结果。 后处理(例如修剪低密度的较小簇可以处理错误标记的点。 多种数据类型的算法可用性 许多不同类型的数据都可以与聚类算法一起使用。数据可以是二进制数据分类数据和基于区间的数据。 阅读您应该了解的数据挖掘算法 现实世界的数据包含各种类型连续分类序数离散文本等。
聚类算法需要足够灵活以处理不同的属性类型和数据规模范围 连续数字属性需要合适的距离度量如欧几里德曼哈顿马哈拉诺比斯等。值应在聚类之前标准化。 二元或名义分类属性 – 可以使用汉明距离或简 WhatsApp 号码列表 单匹配系数。或者将类别编码为数字。 序数属性 – 在考虑类别顺序后可以对数值使用距离度量。 文本属性在使用距离度量之前需要将文本嵌入到数字向量中。 混合属性 – 高尔相似系数允许测量不同属性类型之间的接近度。 非数字尺度在应用距离计算之前需要标准化或归一化。
密度数据 – 这可能需要特殊处理例如使用核密度估计。 此外数地对不同的数据类型进行操作而不需要大量的数据转换作为预处理步骤。 集群可扩展性 数据库通常非常庞大难以处理。该算法应该是可扩展的以处理广泛的数据库因此它需要可扩展。 随着现实世界数据的规模和复杂性不断增长聚类算法必须具有可扩展性才能有效处理大型数据集 什么是可扩展性 他们应该能够跨多个和机器分配计算以并行化大数据的集群分析。
|