c#抓取网站的网站地图内容,比如https://pizzeria-latina.nl/sitemap.xml里面https://pizzeria-latina.nl/sitemap1.xml、https://pizzeria-latina.nl/sitemap2.xml等等里面的内容,求大神告知。
curl -s https://pizzeria-latina.nl/sitemap.xml | cut -d '>' -f 3 | cut -d '<' -f 1
你想多了,爬虫主要是根据页面链接递归并排除来完成搜索“整个”网站的uri。这玩意儿不是谁家都提供的。
XmlDocument doc = new XmlDocument();
doc.Load(sa.Text); //网站地图地址
String relativePath = Server.MapPath(""+sm.Text+""); //保存位置
StreamWriter sw = new StreamWriter(relativePath);
XmlNodeList nodeList = doc.DocumentElement.ChildNodes;
for (int i = 0; i < nodeList.Count; i++)
{
string id = nodeList[i].ChildNodes[0].InnerText;
string strs = "" + id + "";
XmlDocument docc = new XmlDocument();
docc.Load(strs);
XmlNodeList nodeListc = docc.DocumentElement.ChildNodes;
for (int s = 0; s < nodeListc.Count; s++)
{
string ids = nodeListc[s].ChildNodes[0].InnerText;
sw.WriteLine(ids);
}
}
sw.Close();
Response.Write("<script>alert('成功')</script>");