建议你可以尝试去文心一言问下,在实现的过程中遇到问题了,再来这里提问,就比较明确~
如果想将网页转为文档,试试截图提取文字。你要是想问怎么用NET Core自己写的话,。。。。。。
拜拜
有一个工具叫 html2pdf,你百度下载用用看
Playwright.NET 应该就是你需要的 .
using var playwright = await Playwright.CreateAsync();
await using var browser = await playwright.Chromium.LaunchAsync();
var page = await browser.NewPageAsync();
await page.GotoAsync("你需要截屏或者输出pdf的页面地址");
// Generates a PDF with 'screen' media type
await page.EmulateMediaAsync(new() { Media = Media.Screen });
await page.PdfAsync(new() { Path = "page.pdf" });
//截屏存图
await page.ScreenshotAsync(new()
{
Path = "screenshot.png",
FullPage = true,
});
当然除了Playwright外还有 Puppeteer等自动化工具可以满足你的需求!
可以使用aspose,他下边有很多可用的库,比如aspose.html或者aspose.words等等,都十分好用.但是本质上他是付费的,你可以去配置令牌来达到破解的效果.但是不适用于商业用途,商业用途还是走付费渠道吧
将在线网页转换为文档、PDF或图片通常需要使用第三方库或服务,以便捕获和呈现网页内容。以下是一些将在线网页转换为不同格式的一般方法:
DinkToPdf
库(wrapper for wkhtmltopdf)或HtmlRenderer.PdfSharp
库来实现。在选择适当的方法时,请考虑输出格式、需求、复杂性和性能。不同的任务可能需要不同的工具和技术。
可以使用net core 调用 cmd命令 浏览器直接打印网页.
比如 下面的命令可以直接将百度首页打印成pdf保存到d:\temp中:
"C:\Program Files\Google\Chrome\Application\chrome.exe" --headless --disable-gpu --print-to-pdf="d:\temp\12111111.pdf" "https://www.baidu.com/"