现有五千多个url如何根据url输出各个url的类别？？？

悬赏园豆：160 [已解决问题] 解决于 2015-08-03 10:53

比方说：www.sina.com 是新闻 www.lol.com 是游戏 www.taobao.com 是购物等等。请问这个小程序该怎么做？这是小弟的入职项目，小弟是真不直到该怎么做？有哪位前辈，大哥，可不吝赐教，挺急的，谢谢了。

东子同学 | 初学一级 | 园豆：64
提问于：2015-07-28 20:47

< >

最佳答案

这种必须人工介入，有时程序肯定有不准的时候，可以写一个小程序，通过关键字来提示人工这个是什么类型的网站，最后由人工放入哪一个分类。这样应该也很快。一个winform，里面一个webbrowser打开对应的首页，然后内部正则匹配一下你的分类关键字，界面上会自然提示出这个网页可能是什么类的网站，你只要点一下确定，这个就被程序记入该类，如果要放入另一个类别，你做几个按钮就行了。

这样来算，开发2~3天，可能还会快一些。然后运行，平均以15s一个网站一天按7小时计算 7*60*60/15 约1600个网址，3天多就完成了。

收获园豆：30

gw2010 | 小虾三级 |园豆：1487 | 2015-07-29 15:27

额。。谢谢。听起来有点吃力。你说的放到类别是连接到数据库？还是创建个类来保存这些类别？恕小弟愚钝。

东子同学 | 园豆：64 (初学一级) | 2015-07-29 15:35

@东子同学: 我说的是一个半智能工具，软件会提示你，确定要你来点击才行，如图

左边是网站的主页，右边是操作，上面是程序推测出来的，如果正确你点击确认就行了。如果不正确你就点击下面一些按钮来分类，下面一个按扭就是你的一个类。这样你就是每次看首页，点按钮就可以了。

提示一下注意的地方：1.访问记录要记下，如果出错了，可以接着以前的继续操作

2.打开首页的时间设置，不一定要所有文档都加载完，因为有些网站会很卡，所以尽量做到10s以内，如果超过就不读取直接打开，10s基本上关键字这些标题这些是有的。可以分析。

gw2010 | 园豆：1487 (小虾三级) | 2015-07-29 15:43

@gw2010: 谢谢前辈。我想问下，现在我把抓取的页面源码放到了一个string字符串中，在字符串中查找中文的时候，查找不到，请问该怎么做？

东子同学 | 园豆：64 (初学一级) | 2015-07-31 12:55

@东子同学: 如果没有读取到一些可以分类的信息，就是上工分类啊，你把它分入哪一类就是哪一类，你也可以做一个其它类别，最后再单独来看一下这个类别里的东西，或者就是分不出类别的网址。

gw2010 | 园豆：1487 (小虾三级) | 2015-07-31 12:57

@gw2010: 嗯。思路上大致清楚了。但现在编程出现的问题是，我根据url把这个网页的源码缓存到了一个string类，我想在这个string里查找 “新浪”，用到了find，但是查找不到，请问该怎么办？

东子同学 | 园豆：64 (初学一级) | 2015-07-31 13:02

@东子同学: 用正则匹配一下关键字就行了。比如新闻，游戏等。还可以直接取网页的关键字

你自己多练练吧。这些在网上也可以搜索啊。先搜索，找不到再提问

gw2010 | 园豆：1487 (小虾三级) | 2015-07-31 13:03

其他回答(11)

首先是采集然后根据规律进行进一步的数据分析然后才能分离出类别

小眼睛老鼠 | 园豆：2731 (老鸟四级) | 2015-07-28 20:50

谢谢老师。但小弟有很多细节不是很明白。还望老师能详细讲解。各个url好像是没有规律的吧。这样的话该怎么利用url呢？

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-28 20:56

采取首页信息，根据关键字进行分类。。。然后把不太确定的，再人工分一下。

收获园豆：20

幻天芒 | 园豆：37261 (高人七级) | 2015-07-28 20:56

谢谢老师。采取首页信息还好，但利用关键字分类这一步怎么做呢？

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-28 21:00

@东子同学: 比如搜索词频，在源码中搜索“游戏”，“购物”，“新闻”等词出现的频率。。

或者用字典匹配。

支持(0) 反对(0) 幻天芒 | 园豆：37261 (高人七级) | 2015-07-28 21:06

5000多个直接人工分了，别分析了。

收获园豆：10

爱编程的大叔 | 园豆：30844 (高人七级) | 2015-07-28 20:58

额。。老师你好，如果能人工分就好了，关键现在怎么编程实现？还望老师不吝赐教，万分感谢。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-28 21:01

@东子同学: 5分钟一个网站的话，1小时就是24个网站，1天工作6小时144个网站，5000个网站也就是30多天。

30多天你绝对完成不了人工智能和编程的，这个我还是有信心的。

至于人工智能，我还真教不了你，这个得去找百度总工程师。

支持(0) 反对(0) 爱编程的大叔 | 园豆：30844 (高人七级) | 2015-07-28 22:17

@爱编程的大叔: 谢谢大叔。他所说的技术好像只是涉及到爬虫对页面进行关键字抓取。但如何提取并进行筛选这一步真的不会。。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 09:52

提取首页html源码中的关键字，默认将第一个有效关键字（权重最大）当作主分类，其他关键字则是次轻权重，因为有些站点是综合性的站点，只能按照次轻权重再次细分了。比如新浪网的关键字是<meta name="keywords" content="新浪,新浪网,SINA,sina,sina.com.cn,新浪首页,门户,资讯" />，你可以将新浪归为门户一级分类，资讯二级分类。

收获园豆：30

JeffWong | 园豆：2328 (老鸟四级) | 2015-07-29 09:15

谢谢前辈，提取html源码的关键字这部我会，但后面您说的按照权重分类就不是很了解了，您能详细的解答下吗?比如新浪的关键字为什么提取出来是这样？怎么根据这个关键字得到他属于新闻的类别？

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 09:27

@东子同学: 新浪的首页关键字是新浪的工程师按照产品的要求定义成这样的，所以，拿到关键字还需要一个智能筛选的过程。你可以定义一个通用字典，将有门户、资讯等关键字的map到新闻的分类下，当然需要你多参考收集各大网站的关键字才能做好这个通用字典了。

支持(0) 反对(0) JeffWong | 园豆：2328 (老鸟四级) | 2015-07-29 09:40

你数据挖掘工程师吗?还是做人工智能的?

你问一下给你出题目的人,他确定知道他要做的东西是多么牛逼的一个东西吗?

这东西要是做出来了.你随意再开个百度

收获园豆：10

吴瑞祥 | 园豆：29449 (高人七级) | 2015-07-29 09:24

所以我说5000人工分是最经济划算，行之有效的办法。

我们称之为人工智能。

支持(0) 反对(0) 爱编程的大叔 | 园豆：30844 (高人七级) | 2015-07-29 09:32

额。。小弟也就是个c++实习生。他所说的这个小程序好像要用到爬虫对url进行关键字抓取，然后分类。现在我困惑的地方是这五千个url怎么管理和实现能在第一层提取出关键字就输出，提取不出来就接着爬取第二层？直到输出为止，结果是让输出到文件。以前在学校没有写过这类东西，所以现在不知所以。能教教我吗？谢谢了。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 09:49

@爱编程的大叔: 大叔能指导下小弟怎么实现这个功能吗？原题目是：给一个url和一个行业清单，怎么判断这个url属于里面哪个行业？这个清单就是新闻：新浪，凤凰，人民网等。购物：淘宝，国美，京东等。金融：中国银行，建设银行等。还有其他类别包括：游戏，视屏，教育，政府，旅游。。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 09:57

@东子同学: 这样的题目只需要做论文就可以了，不需要真正实现的。

真正实现这个的话你再话三年也不够。所以你只要想思路是什么。

支持(0) 反对(0) 爱编程的大叔 | 园豆：30844 (高人七级) | 2015-07-29 10:00

@爱编程的大叔: 可惜人家要的就是程序。现在我的思路是利用爬虫将url利用搜索引擎的结果匹配整个html里的关键字，若是出现‘新闻’的多那么就是新闻类。如果匹配不到则进行深一层的抓取，直到匹配出结果为止。这个思想可以吗?

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 10:29

@东子同学: 不可能的不管你用什么规则,你从url获取到的html都有可能和你设置的条件反着来.

比如你说带教育关键字的就是教育网站,那一个url是卖书的,也带教育了.怎么办.

没有一个100%的条件可以判断出这些东西.

所以只能用数据挖掘的方法,用多个算法判断1个url更有可能是哪个行业.但这种算法可以说普通的研究生是写不出来的.专业的研究生我觉得能写出来的都不多

支持(0) 反对(0) 吴瑞祥 | 园豆：29449 (高人七级) | 2015-07-29 10:29

@吴瑞祥: 额。。那这样呢？将url进行搜索引擎搜索，利用搜索引擎的结果匹配整个html里的关键字，若是出现‘新闻’的多那么就是新闻类。如果匹配不到则进行深一层的抓取，直到匹配出结果为止。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 10:38

@东子同学: 一样的道理的

支持(0) 反对(0) 吴瑞祥 | 园豆：29449 (高人七级) | 2015-07-29 11:00

@吴瑞祥: 我一直不明白为啥这么简单的道理，没有人明白。

人工智能关键是大数据，错误率。

大数据和错误率这个是投资几百亿也不见得有什么效果的。

支持(0) 反对(0) 爱编程的大叔 | 园豆：30844 (高人七级) | 2015-07-29 11:10

收获园豆：10

ayiis | 园豆：356 (菜鸟二级) | 2015-07-29 09:56

优先找一些已经分类过的导航网站数据

之后还不能确定的meta 文件

还有不能确定的找人工分。

收获园豆：10

笨笨熊_bj | 园豆：218 (菜鸟二级) | 2015-07-29 13:51

你应聘什么职位？

Launcher | 园豆：45050 (高人七级) | 2015-07-29 14:19

c++开发工程师。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 15:37

@东子同学: 你精通 C++ 吗？

支持(0) 反对(0) Launcher | 园豆：45050 (高人七级) | 2015-07-29 15:50

1、首页导入所有行业数据（收集行业内的一些常用关键词）

2、通过行业关键词，通过url的<meta name="keywords" content="关键词" />，初步检索同时标记为对应所属行业类别（一个url对应多个行业，不知道考虑进去吗？）。

3、通过2步，可以把url范围缩小。通过人工再去各类别查看对应url，排查无关的url.

4、要达到精准，就只能靠分析，人工排查标记了。

收获园豆：30

文__武 | 园豆：203 (菜鸟二级) | 2015-07-29 14:56

谢谢。

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-29 15:37

注意页面的META。这个实际上是切分好了的。

如果你的站点比较大，这个可以用来做分类依据。

例如：

收获园豆：10

荣耀属于跪拜猫 | 园豆：832 (小虾三级) | 2015-07-30 08:08

谢谢前辈。我想问下，现在我把抓取的页面源码放到了一个string字符串中，在字符串中查找中文的时候，查找不到，请问该怎么做？

支持(0) 反对(0) 东子同学 | 园豆：64 (初学一级) | 2015-07-31 12:55

碰巧我做过类似的项目，你走大运了。

1.首先抓取 http://top.chinaz.com/ 这个站点（也可以找找其他类似站点）的分类数据，提取每个分类下的网站keyword\title

2. 分析处理每个分类下的keyword和title分词，自己处理每个keyword的权重排名，包括排除一些垃圾词

3. 这样就有数据库了。分析目前网站的keyword，title分词，到处理过的数据库中匹配就得到分类啦。

只能帮你到这啦，自己慢慢搞吧

花生！~~ | 园豆：106 (初学一级) | 2015-08-03 17:09

分词和词的排名处理是关键

支持(0) 反对(0) 花生！~~ | 园豆：106 (初学一级) | 2015-08-03 17:13

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。