一、職位描述
1、對指定的多個網站進行網頁抓取、數據提取;負責網絡數據抓取規劃、清洗以及匯總的開發工作;
2、負責特殊網頁采集任務的分析及采集方案設計;
3、參與爬蟲架構設計和研發,滿足產品中數據抓取的要求;
4、參與爬蟲核心算法和策略優化研究;
5、抓取調度和策略優化,實時監控爬蟲的進度和警報反饋;
6、爬蟲核心系統, 數據平臺的研發維護。
二、職位要求
1、 本科及以上學歷,計算機相關專業;3年以上開發經驗,2年以上Hadoop相關工作經驗;
2、具有數據挖掘、信息檢索、機器學習開發經驗;
3、精通HTML語言,熟悉JS,Ajax,熟悉Lucene、Nutch、Heritrix、larbin、HtmlParse、Scrapy、Crawler4j、WebMagic、WebCollector等開源工具;
4、精通網頁抓取原理及技術,從結構化的和非結構化的數據中獲取信息;
5、熟練使用一門以上腳本語言(PHP/PYTHON/JAVA/Node.js/SQL/R語言 等);
6、熟練Hadoop大數據平臺的核心框架 (HDFS, Pig, Hive, Sqoop, oozie, Zookeeper, Spark, Storm, Kafka 等);
7、精通網絡編程,熟悉HTTP傳輸協議,能模擬瀏覽器操作爬蟲;
8、有豐富Java /Python開發經驗者優先;熟悉MySQL、Oracle及有集群數據庫開發經驗者優先。
9、具備web挖掘等搜索引擎相關知識,有從事網絡爬蟲、網頁去重、網頁信息抽取的經驗。以解決技術難題為樂,對程序完美有偏執追求;具有團隊精神,有想法,敢于挑戰自我。