如何根据抓取数据量确定服务器配置和ip代理配置?

语言: CN / TW / HK

1

爬虫如何根据现在抓取数据量确定服务器配置和ip代理配置?

点击空白处查看答案

这取决于并发量、数据量、网站反爬严不严格以及代码质量。 理论上讲,服务器网络io快就可以了,对内存和cpu要求不高。   如果钱多,那肯定是代理ip越多越好。如果钱少,那你要试探看看同一个IP访问频率到多少的时候网站就封你。然后代理ip的数量要比这个数字高一点点。

2

提问:Flask 启动后,客户端进行访问,当响应数据正常返回后,内存并没有被释放,随着客户端请求次数增多,最终 Flask 进程会因为OOM被杀掉。为什么 Flask 返回响应之后没有释放内存呢?有什么方法可以解决这个问题么?

点击空白处查看答案

你的gc.collect没有用。因为aaa变量还存在引用,不会被回收。我没有遇到过这种情况,怀疑是其他地方的问题。

3

南哥,请问使用httpx访问请求,可不可以设置请求超时重试次数的?比如说设定3次,超时3次才报错误。

点击空白处查看答案

它默认是没有这个功能的,需要你自己单独try一下。 有两个方法。一、可以自己写一个装饰器来重试;二、看这篇文章: 一日一技:巧用or关键字实现多重条件判断 

4

南哥, 我想问下,你们在生产环境中遇到js特别难得加密是rpc 还是去逆向,还是其他解决方法。如果想提速怎么做?

点击空白处查看答案

既然是特别难,那就用模拟浏览器访问网站,但通过中间人攻击收集数据,如果想提速就去模拟浏览器集群,至于哪里可以学到这方面知识, 我推荐我的爬虫书

5

提问:南哥,请教一个爬虫报错问题,是我用playwright在百度搜索关键词时遇到的。

点击空白处查看答案

你打开网页以后,先停一会,再输入

6

两数之和。给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target  的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。我参考人家java写的,但这速度,为什么人家这么快,轮到我这么慢?一般快是什么思路的啊?

点击空白处查看答案

遍历列表,生成一个字典。字典的key是列表里面的元素,值是这个元素在原列表中的位置。然后遍历原列表里面每一个数,用target减这个数,看看差在不在字典里面。

7

提问:虽然我知道将第5行代码改为第6行代码可达到预期效果,但我不明白xxx为什么会随着t的变更而变更?

点击空白处查看答案

第五行是引用传递,他们对应的是同一个列表。第六行是复制了列表里面的值,使用了一个新的内存区域,因此互不影响。你可以对比一下id(xxx)和 id(t)是否一样来看他们是不是同一个内存区域。

8

请教下南哥,我用ffmpeg合并srt字幕和视频,在centos上报错,请教下是啥原因?同样的命令我在mac上测试是没问题的

点击空白处查看答案

我怀疑是centos版本的ffmpeg的命令参数跟mac版本不一样导致的。你执行ffmpeg -h看看文档。

未闻 Code·知识星球开放啦!

一对一答疑爬虫相关问题

职业生涯咨询

面试经验分享

每周直播分享

......

未闻 Code·知识星球期待与你相见~

一二线大厂在职员工

十多年码龄的编程老鸟

国内外高校在读学生

中小学刚刚入门的新人

“未闻 Code技术交流群” 等你来!

入群方式:添加微信“mekingname”,备注“粉丝群”(谢绝广告党,非诚勿扰!)