岗位职责:
1.快速熟悉项目,能在较短时间进入工作状态,融入团队。
2.完成代码的开发,测试,运维,反爬突破等工作;可以快速定位bug并解决优化。
3.对数据有较高的敏感性,能持续构建优质的结构化良好的数据集,并持续更新和扩大数据的规模。
任职要求:
1.具有3年及以上爬虫经验,可以快速根据项目需求进行数据抓取代码和清洗代码开发;
2.独立分析网络协议报文,熟悉Socket/多线程/进程/异步及主流爬虫框架代码开发,精通正则表达式,xpath等解析方法;
3.可以通过代码或技巧突破主流的图形验证码,极验滑动验证码,点触验证码,宫格验证码,旋转验证码对爬虫采集的拦截;
4.熟练掌握自动化测试工具,具有一定的js分析和密码学功底,可以破解js反爬,通过脚本或者策略绕过平台机器人抓取防护服务对数据的拦截;
5.熟练使用常见数据库,掌握海量结构化和非结构化数据的去重,清洗,存储,包括但不限于文本,图片,文件,短视频等互联网主流数据类型;
加分项:有海量金融数据/金融app,web文本数据,抓取,去重,清洗等相关经验者优先。