爬虫项目十六：用Python三十行代码采集QQ群成员信息，很简单

前言

用Python爬取QQ群成员信息数据

提示&＃xff1a;以下是本篇文章正文内容&＃xff0c;下面案例可供参考

一、抓包

我们进入qun.qq.com登录自己的账号、选择一个群进入&＃xff0c;打开抓包工具&＃xff0c;向下滑动页面&＃xff0c;可以抓到一个数据包其中包含了20个成员的信息&＃xff0c;有网名、QQ、发言时间等等

在这里插入图片描述
现在我们来观察他的url和所带参数 &＃xff0c;找到他的规律&＃xff0c;我们可以看到参数中st和end应该就是表示的页数&＃xff0c; 意思应该是从第21个到41个&＃xff0c;至于gc、bkn应该表示的账号和群组&＃xff0c;我们刷新页面抓取第一页的数据包观察发现 gc、bkn、sort参数都没变&＃xff0c;唯独st和end变了&＃xff0c;可见st和end就是表示页数的关键

https://qun.qq.com/cgi-bin/qun_mgr/search_group_members参数&＃xff1a;gc: 自己抓包获取st: 0end: 20sort: 0bkn: 自己抓包获取参数&＃xff1a;gc: 自己抓包获取st: 21end: 41sort: 0bkn: 自己抓包获取

我们已经知道了数据页数变化的规律&＃xff0c;现在我们来实现其代码的操作

首先写一个函数用于生成Params并传入列表中

def Params_list(self):Params_list&＃61;[]for i in range(96):st&＃61;i*20&＃43;iend&＃61;st&＃43;20params&＃61;{"gc": 自己抓包获取,"st": st,"end": end,"sort": 0,"bkn": 自己抓包获取}Params_list.append(params)return Params_list

在写一个函数用于访问页面获取数据

def Get_Data(self,params):try:url&＃61;"https://qun.qq.com/cgi-bin/qun_mgr/search_group_members"head&＃61;{&＃39;user-agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36&＃39;,&＃39;COOKIE&＃39;:&＃39;tvfe_boss_uuid&＃61;3eec8ab61924dc8d; pgv_pvid&＃61;5532717881; RK&＃61;CnIgT93OeT; ptcz&＃61;1a3ce7dF; traceid&＃61;5a73ddf726&＃39;}data&＃61;requests.get(url&＃61;url,headers&＃61;head,params&＃61;params).json()for da in data["mems"]:with open(".//QQ_Group.csv", "a&＃43;", encoding&＃61;"utf-8") as f:writer &＃61; csv.DictWriter(f, da.keys())writer.writerow(da)except Exception as e:print(e)pass

最后有了params列表便可以传入Get_Data函数中获取数据

如果你对爬虫感兴趣&＃xff0c;可看我主页已经更新多个爬虫项目、所有爬虫项目代码均在公众号“阿虚学Python”中&＃xff0c;本次源码回复“QQ群”获取

在这里插入图片描述
谢谢大家的观看