岗位名称 Python 爬虫工程师 / 数据采集工程师 岗位职责
1. 负责设计、开发和维护分布式爬虫系统,实现网站或区块链数据的高效采集;
2. 进行网页结构分析与反爬策略研究,编写稳定可靠的抓取脚本;
3. 利用代理池、请求头伪装、异步 IO、验证码识别等技术应对复杂反爬;
4. 对采集数据进行清洗、结构化存储与定期更新;
5. 优化采集效率,监控任务状态并处理异常;
6. 与算法、数据分析团队协作,提供高质量数据源;
7. 研究新型爬取框架与前沿技术(如 Playwright、Puppeteer、Scrapy、Requests + aiohttp)。
任职要求
1. 熟练掌握 Python 语言,熟悉 Scrapy、Requests、BeautifulSoup、lxml、Selenium 等常用库;
2. 熟悉 JavaScript 渲染型网站的抓取技术(Playwright 或 Pyppeteer);
3. 熟悉 HTTP 协议、正则表达式、XPath、JsonPath 等解析技术;
4. 熟悉 MySQL / MongoDB / Redis 等数据库的使用;
5. 具备 分布式爬虫、代理池管理 或 调度系统(如 Celery) 的经验;
6. 有良好的代码规范与文档编写能力;
7. 有区块链数据、舆情监测、电商/金融行情等数据采集经验者优先。
联系TG @foya_job8 |