我们可能有以下需求:

  1. 爬虫获取相似url
  2. 获取相关内容

这里有一篇基础介绍URL相似度计算的思考-spongeliu,可以先看下文章和编辑距离算法

他的做法是:

重新回到问题,要判断的是两个url的相似度,但是字符串的判断方法又不能很好应用。那么url和字符串的区别在哪里?这取决于如何定义相似的url。可以注意到,url比字符串含有更多的信息可以参考,因为url本身是包含结构和特征的,比如站点、目录。定义相似url的时候,是否要考虑站点?是否要考虑目录的一致?是否要考虑目录的深度?这取决于具体的需求。

考虑到url本身的结构,对其相似度的计算就可以抽象为对其关键特征相似度的计算。比如可以把站点抽象为一维特征,目录深度抽象为一维特征,一级目录、二级目录、尾部页面的名字也都可以抽象为一维特征。

  • 抽象特征,计算分值 *

那么如何把一个网站每个页只展示一张的图片,通过处理获取相关图片集中统一展示呢?

图流