首页新闻找找看学习计划

网上抓取商品识别归纳的问题

0
悬赏园豆:50 [已解决问题] 解决于 2015-04-24 14:33

准备做个小项目,涉及到抓取各大主流电商商品数据,想要识别同一款商品在不同电商平台的数据进行归纳对比。目前的思路一是商品的货号识别,但这个东西只有京东部分商品有,其他电商基本上不提供,所以很难做到。再一种做法就是纯技术了,通过商品的属性匹配,目前主要是通过商品的描述,通过相似度的方式来识别。这种文本相似度的算法网上资料都是推荐cos余弦对比,想来园子里问问大神们,有无类似的项目经验或者思路可以提供借鉴,豆子不多,悬赏50,在线等 - -

问题补充:

目前是计划使用标题匹配了,就是想咨询下大家有无好的文本匹配算法或者工具,有类似的项目经验或者思路方法指点一下,我就结贴了。

try_die的主页 try_die | 初学一级 | 园豆:139
提问于:2015-03-16 13:48
< >
分享
最佳答案
0

还是采用了现有的lucene评分机制,目前项目已经可以运行了,只是效果差强人意

try_die | 初学一级 |园豆:139 | 2015-03-19 14:28
其他回答(3)
0

既然小项目,还是别考虑属性了,简单点儿就只做标题相似度

收获园豆:20
iImax | 园豆:3138 (老鸟四级) | 2015-03-16 14:24

虽然是小项目,也希望能做的更好(:   标题相似度有什么好的处理方法呢  我目前尝试的是lucene的评分机制,感觉不是很准确。想看看大家有什么类似的项目经验或者思路,希望能有更合适的方式处理。

支持(0) 反对(0) try_die | 园豆:139 (初学一级) | 2015-03-16 14:34

@try_die: 这个项目可不小,需要写大量的算法,来对比不同分类的商品。

文本相似度只能参考,即使相似度达到90%,也有可能文本意义完全不同。

支持(0) 反对(0) walen | 园豆:429 (菜鸟二级) | 2015-03-17 18:43
0

小项目

对有的人就是费用低于一个亿的都叫小项目。

有的人是费用低于1万的叫小项目。

要是技术能解决一切问题,那就没程序员啥事了,这个物种早就应该灭绝了。

收获园豆:15
爱编程的大叔 | 园豆:29564 (高人七级) | 2015-03-16 15:12
0

这种项目,个人感觉要达到你 要求,已经不算小了。还是建议标题匹配就好了~简单,直接!

收获园豆:15
幻天芒 | 园豆:36522 (高人七级) | 2015-03-17 09:15
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册