1、搭建数据采集平台,通过对数据的抓取、解析、调度、存储等模块的拆分与优化,构建和完善统一的抓取服务平台; 2、设计爬取、调度和抽取算法,优化系统; 3、熟识Hadoop生态圈技术体系对离线计算、内存计算和流式计算均有深刻理解如Hadoop、Hive、Spark、Flink、Impala 等; 4、解决爬虫和数据库出现的问题并不断维护、优化程序。 任职资格: 1、本科及以上学历,计算机相关专业,2年左右相关经验; 2、Python 开发的经验,爬虫开发经验,熟识MySQL或了解PostgreSQL 数据库能协助检查数据入库环节; 3、熟识整个爬虫的设计及实现流程.精通网页抓取原理及技术,精通正则表达式从结构化的和非结构化的数据中获取信息; 4、具有搜寻相关技术研发、数据挖掘、数据处理、自然语言处理、信息检索、机器学习背景者优先。 职位福利:五险一金、加班补助、周末双休、员工旅游、定期体检
更新于 2024-10-17
查看更多岗位职责