java可以通过jsoup爬取网页内容
另外还推荐一个java爬虫框架WebCollector
你有相关的demo吗,或者以前工作中用到的案例能分享一下吗,老铁
@同城旧气: 手写一个Java爬虫
@ycyzharry: 我现在遇到个问题,就是jsoup的post请求需要带非String类型的参数(bool型,date型的),,在网上没找到相关的代码,我的代码如下,不知道是不是参数类型不正确导致没请求没返回正确的数据?有没有办法可以解决支持传不同类型的参数呢。
phantomjs了解一下
好的,谢谢!
package util; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.net.URL; import java.net.URLConnection; import com.alibaba.fastjson.JSONObject; public class postt { public static void main(String[] args) { JSONObject params = new JSONObject(); params.put("参数名", "参数值"); params.put("参数名", "参数值"); String sr = postt.sendPost("请求网址",params); System.out.println(sr); } public static String sendPost(String url, JSONObject param) { PrintWriter out = null; BufferedReader in = null; String result = ""; try { URL realUrl = new URL(url); // 打开和URL之间的连接 URLConnection conn = realUrl.openConnection(); // 设置通用的请求属性 conn.setRequestProperty("accept", "*/*"); conn.setRequestProperty("connection", "Keep-Alive"); conn.setRequestProperty("Content-Type","application/json"); conn.setRequestProperty("user-agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)"); // 发送POST请求必须设置如下两行 conn.setDoOutput(true); conn.setDoInput(true); // 获取URLConnection对象对应的输出流 out = new PrintWriter(conn.getOutputStream()); // 发送请求参数 out.print(param); // flush输出流的缓冲 out.flush(); // 定义BufferedReader输入流来读取URL的响应 in = new BufferedReader( new InputStreamReader(conn.getInputStream())); String line; while ((line = in.readLine()) != null) { result += line; } } catch (Exception e) { System.out.println("发送 POST 请求出现异常!" + e); e.printStackTrace(); } // 使用finally块来关闭输出流、输入流 finally { try { if (out != null) { out.close(); } if (in != null) { in.close(); } } catch (IOException ex) { ex.printStackTrace(); } } return result; } }