爬取网页数据一般是后台程序是处理吖,你是JS处理是指用JS扣dom元素嘛?那样和爬取不是一个概念哦。
一般通过http请求网址的方式去爬取网页,一种是找到别人的ajax请求地址去爬取数据,一种和你说的类似,直接爬取整个网页的html,这种爬整个html的方式只能爬加载在页面上的数据,有局限性,如果是这种,你说的“最重要的就是取节点的问题”是指的取某个div吧,根据id或者class,我之前弄过,爬取整个网页后,需要通过正则匹配到这个网页(文本)里指定id或者class的div,比较麻烦,=。= 弄肯定能弄,无外乎就是分析一下规律,找到正则进行匹配。不过你说的爬取数据建议还是去了解一些http方面的知识,我之前用到了httpclient这个类,你可以从这里下手去学习~~
可以用python 也可以用java 还可以用一些自动化工具比如selenium 网上有很多例子 爬取后的内容可以通过jsoup来解析或者通过标签筛选。给一个python的例子:
http://www.cnblogs.com/fnng/p/3576154.html
内容都是正则取得,你搞什么的鬼?教程你看不懂吗?