• (022) 6902 1117

Python Developer (Web Scraping Specialist)

 


Objective

Mengembangkan script untuk melakukan web scraping pada website jobstreet.co.id dengan tujuan mengumpulkan informasi lowongan pekerjaan secara otomatis dan terstruktur untuk disimpan ke dalam database.


Responsibilities

  1. Web Scraping Development:

    • Mengembangkan dan mengoptimalkan script scraping untuk mengumpulkan data dari jobstreet.co.id menggunakan Python (dengan pustaka seperti BeautifulSoup, Scrapy, atau Selenium).
    • Memastikan scraping dapat berjalan stabil dan scalable untuk volume data yang besar.
    • Melakukan scraping pada beberapa halaman, termasuk halaman hasil pencarian dan detail lowongan.
  2. Handling Dynamic Content:

    • Memahami teknik scraping untuk website yang memuat konten secara dinamis (menggunakan AJAX/JavaScript).
    • Menggunakan Selenium atau pustaka lain yang sesuai untuk mengatasi elemen dinamis di situs.
  3. Proxy Management:

    • Memanfaatkan IP proxy pool untuk menghindari pemblokiran dari situs.
    • Mengelola rotasi proxy secara efektif agar scraping berjalan lancar tanpa terdeteksi.
  4. Data Processing & Storage:

    • Membersihkan dan memvalidasi data yang diperoleh dari hasil scraping.
    • Menyimpan data ke dalam MongoDB sesuai dengan skema yang sudah disiapkan, termasuk field-field seperti id_real, job_title, min_salary, max_salary, location, company, dan lainnya.
    • Melakukan optimasi query untuk memastikan penyimpanan dan pengambilan data dari database berjalan efisien.
  5. Error Handling & Logging:

    • Mengimplementasikan error handling dan logging pada setiap tahap scraping untuk memudahkan debugging.
    • Memonitor status scraping dan membuat notifikasi jika ada error atau kegagalan scraping.

Technical Requirements

  1. Language & Tools:

    • Mahir dalam Python dan pustaka-pustaka scraping (BeautifulSoup, Scrapy, Selenium).
    • Familiar dengan database MongoDB untuk menyimpan hasil scraping.
    • Pengalaman bekerja dengan API untuk mengambil data (jika dibutuhkan).
  2. Web Scraping:

    • Pengalaman dalam scraping website yang memiliki struktur HTML kompleks.
    • Pengalaman menggunakan Selenium untuk mengatasi situs yang menggunakan JavaScript.
    • Pengalaman menggunakan proxy pool untuk menghindari deteksi scraping.
  3. Database:

    • Pengalaman dengan MongoDB termasuk desain skema, query optimization, dan data management.
    • Mengerti cara mengelola data dalam jumlah besar.
  4. Deployment:

    • Pengalaman dalam deploy scraping bot di cloud server seperti AWS, Google Cloud, atau VPS.
    • Pengalaman dalam melakukan scheduling scraping tasks secara otomatis menggunakan cron job atau alat serupa.

Preferred Experience:

  • Pengalaman scraping data dari situs job aggregator serupa.
  • Pengalaman dengan scraping API atau scraping data dari situs yang menggunakan teknik anti-scraping (captcha, limit IP, dll).

Development Flow:

  1. Initial Setup: Setup lingkungan pengembangan, termasuk pemilihan tools dan framework yang akan digunakan.
  2. Web Scraping Development: Membuat script scraping dari halaman-halaman utama, seperti halaman pencarian lowongan dan detail lowongan.
  3. Proxy & Anti-bot Handling: Mengimplementasikan proxy pool dan mengatasi kemungkinan pemblokiran oleh Jobstreet.
  4. Data Cleaning & Storage: Memastikan bahwa data yang di-scrape sudah terstruktur dengan baik dan disimpan dengan benar ke MongoDB.
  5. Error Handling & Logging: Mengimplementasikan logging untuk tracking error dan monitoring scraping performance.
  6. Testing & Deployment: Menguji script scraping dan melakukan deployment ke production environment.
  7. Maintenance: Melakukan update script jika ada perubahan struktur website atau masalah yang muncul.

Kriteria done: 

- berhasil scraping selama 7 hari tanpa kena rate - limit. Di. Jobstreet
- berhasil scraping semua role dalam sehari

Python MongoDB API Gateway

Published Budget: Rp 800,000 - 1,200,000
Finish Days: 30
Published Date: 30/09/2024 17:33:06 WIB
Start Date: 04/10/2024 20:15:21 WIB
Finish Date: 23/12/2024 20:14:23 WIB
Project Status: Closed
Accepted Worker: dwiki.laksana (dwiki.laksana)
Accepted Budget: Rp 800,000
Project Ending: Completed

Project Owner

goodesign
    
10.00/10.00
350 Point
#1,931 dari 1,304,038
Rated Worker: 5.50/10.00

Oke, sudah sesuai goals saya

Accepted Worker

dwiki.laksana
    
6.00/10.00
48 Point
#5,576 dari 1,304,038
Rated Owner: 10.00/10.00

Good for being project owner

      User Bids

 

Recommended Workers

rakifsul

28,195 points
80 projects
    
10.00/10.00

manakreatif

20,281 points
162 projects
    
9.77/10.00

Muhammad.Rahman

18,577 points
195 projects
    
9.81/10.00

programmerkreatif

14,459 points
62 projects
    
9.52/10.00

arkhan7

11,029 points
201 projects
    
9.83/10.00

Recommended Services

Tiru Website Lain Sesuai Keinginan (Cloning)

Rp 650,000
18 sales
    
9.83/10.00

Jasa Pembuatan website Wordpress + Elementor

Rp 650,000
16 sales
    
10.00/10.00

Jasa pembuatan landing page

Rp 400,000
13 sales
    
9.92/10.00

Open Projects

Otomatis Checkout Qpon

Owner: Xidora
Budget: Rp 1,000,000 - 1,500,000

Template Web PPOB

Owner: udontknowme
Budget: Rp 150,000 - 200,000

Revisi Halaman Website

Owner: stevendjingga
Budget: Rp 150,000 - 200,000

Ganti Iklan Unity ke AdMob + Ganti Domain + Pindah Hosting

Owner: aizeta
Budget: Rp 200,000 - 300,000

Integrasi API Online Delivery

Owner: zainalaqli
Budget: Rp 1,000,000 - 1,500,000

 


Live Chat