准备做个小项目,涉及到抓取各大主流电商商品数据,想要识别同一款商品在不同电商平台的数据进行归纳对比。目前的思路一是商品的货号识别,但这个东西只有京东部分商品有,其他电商基本上不提供,所以很难做到。再一种做法就是纯技术了,通过商品的属性匹配,目前主要是通过商品的描述,通过相似度的方式来识别。这种文本相似度的算法网上资料都是推荐cos余弦对比,想来园子里问问大神们,有无类似的项目经验或者思路可以提供借鉴,豆子不多,悬赏50,在线等 - -
还是采用了现有的lucene评分机制,目前项目已经可以运行了,只是效果差强人意
既然小项目,还是别考虑属性了,简单点儿就只做标题相似度
虽然是小项目,也希望能做的更好(: 标题相似度有什么好的处理方法呢 我目前尝试的是lucene的评分机制,感觉不是很准确。想看看大家有什么类似的项目经验或者思路,希望能有更合适的方式处理。
@try_die: 这个项目可不小,需要写大量的算法,来对比不同分类的商品。
文本相似度只能参考,即使相似度达到90%,也有可能文本意义完全不同。
小项目
对有的人就是费用低于一个亿的都叫小项目。
有的人是费用低于1万的叫小项目。
要是技术能解决一切问题,那就没程序员啥事了,这个物种早就应该灭绝了。
这种项目,个人感觉要达到你 要求,已经不算小了。还是建议标题匹配就好了~简单,直接!