需求:
对目标网站进行信息自动抓取,支持HTML页面内容各种数据的采集,如文本信息,URL,数字,日期,图片等。。。
用户对每类信息自定义来源与分类。
可以下载图片与各类文件,如PDF,Flash等。
支持智能替换功能,可以将内容中嵌入的所有无关的部分如广告去除。
支持多页面文章内容自动抽取与合并。
支持下一页自动浏览功能。
数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或桌面程序之间没有任何耦合。
支持多个栏目的信息采集可用同一配置一对多处理。
保证信息的完整性与准确性,绝对不会出现乱码。
支持各种主流数据库,如MsSQL,Access,MySQL,Oracle,DB2...
支持数据库表结构完全自定义,充分利用现有系统,方便与现有的一些系统进行集成.
有一个类似的软件,迅雷下载:火车采集器,
今天看了一天的这个采集器,到现在也没有完全会使用,毕竟功能太多了,但也发现了一些Dug
如果按需求说的去做,也许有点不切实际,很智能化是不可能的!只有用户输入的信息越精确,搜索才越快,得到的数据才能越精确!
像火车采集系统,所有入库的字段都要用户手动去匹配,比如:标题,从<div class="title">开始,到</div>结束,内容,作者,出处,时间,自定义字段...
小哥的心够大,够野,除了感情上支持外,理性上我有点晕。
就我的所见所闻看,全智能的采集系统(爬虫?)还是很难的,好像一般都是通过扫描某些固定的数据库(rss/xml等)进行数据收集工作,而这些数据源通常还是以合作的形式要求第二方提供等。比如说google的视频搜索,我看他只是收录了固定若干站点的视频而已,大概是通过配置的手段进行素材的收录,也通过配置的手段适应当前最新的需求,比如增加了一个新视频站点 琥珀 啥的,那就在素材站点中增加这么一个站点。
武断的说,如果试图一口气让系统自适应网络情况,自定采集各类需求,光一个海量数据就能将你的小小肩膀压倒,我想迅雷应该是经过了若干年的资源积累才做到了现在的所谓的泛采集系统。
我建议一个分类一个分类的实现,比如首先做新闻的,等这个产品成熟了,再做视频、文档等,由少到多嘛。
我建议一个步骤一个步骤的实现,比如首先做素材源可配置的,等这个产品成熟了,再做素材源自适应的,由简到难嘛。
我以前为公司做过一个不过只针对一个网站,还有对一种特定的网页结构才行
原理是首先根据那个渲染后的HTML结构来分析进行抓取,不知道对你是否有帮助
啥玩意儿,都可以免费获得嘛?
哎,我做采集,也一年多了...有事密我了...
火车头是收费的……
你要想也收费,就要出钱去学了……