数据清洗(Data Cleansing)新手教学简单易懂(缺失值、异常值、重复数据、不一致数据、格式

简单说一下肘部原则:就是尝试多个聚类中心的个数,进行实验,得到对应的代价函数(loss值),然后按照个数的由小到大的增加画到一张图上,看看loss值有一个由大的波动到小的波动的拐点,那么我们选择这个拐点对应的聚类中心个数。就是如果说你有一个流动的数据流,就可以使用在线学习算法,还能够匹配到最新的趋势,比如用户的爱好在变化,你推荐给他的按照他的爱好变化而变化。PCA做的就是尝试找到一个面或线或别的在高维上可以将数据分隔开的东西,把数据投影到这个面或线上,以便最小化平方投影误差。确认没有误差运行时应该关闭。

2025-08-20 07:09 点击量:1