大家对于网页自动化和网页抓取有什么问题,可以问我任何事情。

搜索

你需要写一个爬虫,可以使用编程语言和工具发送请求、解析数据并提取信息。

我建议你可以考虑使用selenium、bs4、puppeteer等工具。
 

ibscutabso

New member
我尝试制作一个自动化工具来从这个网站下载图片,但该网站似乎使用了Google验证码v2来防止我这样做。

我能下载一些图片,但之后这个工具就无法继续工作了。

你能从这个网站下载图片吗。

网址是 https://www.peakpx.com/。
 

ibscutabso

New member
我使用jsoup和selenium,但两者都没用。

我的工具只能下载20-30张图像(指原始图像,不是缩略图)。

之后该网站就会阻止我的工具,下载的图像也会出问题。
 

fussidytu

New member
我觉得只用额外的隐身插件就够了吗。

但是我在某个网站上使用这个插件时出现了问题(被datadome拦截),所以不得不转用另一个库。

你觉得每次在同一设备上运行puppeteer会不会被检测到我们的mac地址。
 

hetviospeedpic

New member
我该如何增加使用OpenAI进行AI内容自动化的Python脚本的字数。

目前,我只能生成大约700到800个单词。
 

wilomabea

New member
我觉得永远都不会有足够的东西,需要添加更多的扩展和插件,写更多的代码。

虽然这些措施能够正常运行,但总有一天会出现崩溃的情况。

因此,需要随着检测方法的更新来更新代码库。

尽管我认为这些措施足以满足基本的爬虫需求,但对于像Instagram这样的科技巨头,我们总是需要不断改进。

你看这个链接中的内容,觉得这样做足够了吗。

可能并不足够,但它仍然是我们所有人开始爬虫的好起点。

@matek697,你认为这样做够了吗。

虽然仅仅是一个开始,但也是一些可以使用的东西。
 

geobillsingra

New member
如果你是新手,我建议你选择使用Selenium。

虽然这个工具很难学习,但是一旦你掌握了它和Scrapy,就没有什么可以阻止你了。

相信我。
 

geobillsingra

New member
要完成这个任务,需要使用API。

虽然有很多方法可以实现,但我个人更喜欢用Python和Selenium或Scrapy。
 

cacorgiadrag

New member
我想知道如何自动化执行一些复杂的任务,例如注册Cloudflare并添加域名。

另外,你认为哪家提供最好的验证码、socks5代理和普通代理服务呢。

你又是如何模拟伪造用户代理呢。

你在网络爬虫和自动化中遇到的最复杂的任务是什么。

你是怎么处理的呢。

希望这次的翻译更符合口语化的要求。
 

geobillsingra

New member
嘿,我可以告诉你一些关于做这些任务的小技巧。

首先,这些任务确实可以完成,但说实话,我从来没有想过去尝试。

如果你需要使用代理,我建议你试试2captcha API。

我个人使用的是oxylabs,因为他们的用户体验非常好,只是价格有点贵。

使用selenium来完成这些任务是最简单的方法。

你可以看看这里的Java示例:public static void main(String[] args) {System.setProperty(webdriver.chrome.driver, chromedriver.exe);ChromeOptions options = new ChromeOptions();options.addArguments(在这里添加你的伪造用户代理);WebDriver driver = new ChromeDriver(options);} 还有一个使用Python的示例:options = Options() options.add_argument(--user-agent=在这里添加你的伪造用户代理) driver = webdriver.Chrome(executable_path=chromedriver.exe, options=options)。

最复杂的任务是动态加载页面,但是你可以很容易地使用Selenium绕过它。
 

tiparaffle

New member
想知道如何制作一个网络爬虫,从谷歌搜索结果中抓取电子邮件地址吗。

我来告诉你吧。

首先,你需要输入你要搜索的关键词,比如“伦敦机械师”。

然后你可以选择你想要抓取多少个结果中的电子邮件地址,比如我选择了前100个结果。

然后程序会自动抓取前100个结果中的电子邮件地址,并将它们导出到一个CSV文件中。

这样,你就可以方便地获取谷歌搜索结果中的电子邮件地址了。
 

wilomabea

New member
sure here is my browser function you can define directory in userDataDirasync function launchBrowser(req, proxy = null) { !fs.existsSync('./data')
 

enlivesprob

New member
“有没有关于运营大规模 Puppeteer Farm 的建议。

如果要同时运行成百上千个账号,内存和CPU的瓶颈成本都不低。

 

geobillsingra

New member
“除非你不再使用浏览器,而是直接向服务器发送请求,但这就需要懂得如何获取私有API、处理认证等等…”
 
顶部