爬虫工程师是干什么的,爬虫初级工程师是个什么水平

  爬虫工程师是干什么的,爬虫初级工程师是个什么水平

  职位描述1:

  1.参与大型框架系统的相关架构和开发;

  2.负责框架系统模块的设计和开发,包括服务器和客户端,以及日常升级和维护。

  3.协助需求收集、分析、系统设计、测试和部署,并编写开发过程中涉及的相关文档。

  合格

  1.3年以上Java开发经验,熟悉Java核心和开源项目,有互联网开发经验者优先。

  2.具有面向对象的设计思想和经验,熟悉软件开发流程和架构,具有良好的文档能力和良好的编码风格;

  3.具有良好的表达和沟通能力,充分理解用户需求和功能描述,设计开发软件系统;

  4.熟悉SOA、消息传递、socket、线程、并发等开发知识,有后台框架开发经验者优先。

  5.熟悉应用服务器,Tomcat,Netty和Apache的配置和优化。

  6.熟悉数据库知识,数据库设计能力,以及SQL Server/Oracle/MySql相关技术和工具。

  7熟悉HTTP传输协议,精通网页抓取的原理和技术,能够模拟浏览器操作爬虫;

  8.责任心强,热爱爬虫工作,有爬虫项目经验者优先。

  9.较强的团队合作精神,工作热情,能承受一定的工作压力。

  10.全日制本科学历,硕士及以上学位,计算机、数学、物理等理工科专业。

  职位描述2:

  1.参与爬虫系统的架构设计和开发;

  2.有2年以上实际爬虫开发和内容提取经验;

  3.负责设计和开发一个分布式网络爬虫系统,捕获和分析多平台信息;

  4.设计爬虫策略和反屏蔽规则,提高网页抓取的效率和质量;

  5.能够独立解决实际开发过程中遇到的各类问题;

  工作要求:

  1.熟悉linux平台开发,3年以上Java、python或C/C开发经验;

  2.精通信息捕获和整合技术,从结构化和非结构化数据中获取信息;

  3.熟悉Mysql、redis、mongdb中至少一种,有数据库调优和海量数据存储经验者优先;

  4.有搜索相关技术研发经验者优先;

  5.有数据挖掘、自然语言处理、信息检索和机器学习背景者优先;

  6.有nutch、heritrix或分布式抓取经验者优先;

  7.熟悉搜索引擎和个性化推荐相关技术,精通主流分词算法、分类、摘要抽取、大规模web聚类、索引、检索等相关开发经验者优先。

  职位描述3:

  1.精通爬虫相关技术,如httpClient/jSoup/xpath/正则表达式/认证码加密/代理池等。

  2.精通Java核心知识,如常用集合类/泛型/反射/IO/注释/多线程等。

  3.掌握常用开源框架,如Spring、MyBatis、Spring Boot等。

  4.掌握常用数据库(如MySQL)和相应的DDL/DML,熟悉索引和常规SQL调优。

  5.掌握常用的开发管理工具和应用服务器,如Eclipser、Maven、Git/SVN、Tomcat、Nginx等。

  6.熟悉行为验证码识别、模拟登录、数据清洗、去重、入库等。

  7.熟悉HTTP协议,掌握HTML/CSS/JS/JQUERY/AJAX等相关知识。

  8.熟悉分布式和NoSQL技术,如MQ,Zookeeper和Redis。

  9、了解Linux系统和Linux常用命令

  10.了解Hadoop、HBase、HDFS、KAFKA和其他大数据。

  1.有运营商网站抓取或反向经验者优先。

  工作描述4:

  1.参与数据层建设,重点抓取垂直数据,多平台信息抓取分析;

  2.参与爬虫系统的架构设计和开发;

  3.实现数据抽取、清洗、结构化、入库、统计分析等需求;

  4.研究优化算法,提高爬虫系统的稳定性和可扩展性;

  5.设计爬虫策略和反屏蔽规则,提高网络爬行的效率和质量;

  6.能独立解决工作中遇到的各种问题

  2.有扎实的计算机基础,熟悉常用数据结构,有爬虫开发实践经验;

  3.精通至少一种Java/Python语言,良好的编码风格和编码能力;

  4.熟悉高并发、高性能分布式系统的设计与应用,熟悉常用数据存储,各种数据处理技术优先;

  5.3年以上编程开发经验,有丰富爬虫和反爬虫经验者优先。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: