• (022) 6902 1117

Bot Web Scrapping

 

Hi Warga projects,

Saya butuh bot scraper dalam bentuk nodejs + phantomjs + cheeriojs (atau scraper dalam bentuk javascript lainnya) di backend dan vuejs atau php di frontend. Yang terpenting dapat diakses melalui browser dan bisa running di background dengan scheduled task.

Bot bertugas menscrape bagian tertentu dari URL hasil pencarian yang sudah ditentukan sebelumnya oleh saya. Bot HANYA menscrape halaman URL tersebut dan memparsing bagian-bagian yang diperlukan saja. Bot harus bisa mengexclude html tag yang tidak dibutuhkan, seperti iklan, promosi, diskon dsb.

Bot harus OPENSOURCE. Bot scraper yang saya pesan sebelumnya tiba-tiba tidak bisa jalan lagi, dan developernya menghilang sejak 11/11/2019. Untuk itu, scriptnya harus dibuka segamblang-gamblangnya, tidak diencrypt, tidak ada dependency pada service external atau service lain yang mengakibatkan bot tidak bisa jalan.

Website yang akan discrape ada 8, berupa toko online/marketplace ecommerce Indonesia.

Spesifikasi teknis bot sebagai berikut :

  1. Input berupa baris URL dari masing-masing marketplace. Contoh : "ID|NAMABARANG|URL1|URL2|URL3|URL4|URL5|URL6|URL7|URL8|HARGATERMURAH"
  2. Apabila ada URL marketplace yang tidak ingin discrape, dapat diskip dengan contoh format "ID|NAMABARANG|SKIP|URL2|URL3|URL4|URL5|SKIP|URL7|URL8|HARGATERMURAH"
  3. Input ke bot dapat berupa ratusan baris seperti contoh di atas.
  4. Output bot adalah file csv dengan kolom-kolom menyesuaikan barisan input di atas. Untuk URL yang diskip, outputnya adalah nilai "N/A".
  5. Apabila suatu URL tidak terdapat kriteria yang dicari/html tag yang dicari, atau muncul kode error dari website yang discrape, outputnya adalah "N/A".
  6. Output bot berupa 2 buah file .csv berisi sama. Satu CSV dinamakan constant.csv, satu lagi bervariasi tergantung tgl dan jam digenerate, misalkan 20190914_0930.csv. File constant.csv terdapat informasi waktu file csv dibuat. File-file tersebut dapat diakses melalui browser.
  7. Tiap selesai update/scraping, bot akan menggenerate 2 file csv, constant.csv, yang akan menimpa file constant.csv yang sudah ada, dan satu lagi bervariasi tergantung tgl dan jam digenerate, misalkan 20190914_0935.csv
  8. Ada setting untuk mengatur frekuensi scraping bot dan waktu crawling mulai satuan bulan sampai menit tertentu.
  9. Bot bisa menggunakan proxy untuk scraping. Proxy berupa multiple list IP:Port, dan bot menggunakan Proxynya secara random tiap scraping.
  10. Ada jeda tiap scraping satu baris input dan bisa diatur waktu jedanya. Waktu jeda tidak berupa fixed time, melainkan bervariasi, misalkan jeda tiap 5 detik sampai 180 detik. Bot akan secara random menjeda scrapingnya antara waktu tersebut.
Kriteria di atas dapat menyesuaikan dengan masukan dari anda.

JavaScript PHP HTML JSON NodeJS Apache Nginx Web Scrapping ReactJS VueJS

Published Budget: Rp 3,000,000
Finish Days: 45
Published Date: 11/03/2020 11:20:51 WIB
Start Date: 16/03/2020 22:11:48 WIB
Finish Date: 09/05/2020 12:09:05 WIB
Project Status: Closed
Accepted Worker: muh.angga.1998 (muh.angga.1998)
Accepted Budget: Rp 3,500,000
Project Ending: Completed

Project Owner

donny.mager
    
10.00/10.00
1,201 Point
#493 dari 1,097,815
Rated Worker: 10.00/10.00
Mantap gan

Senang rasanya bekerja dengan mas Angga, sangat mengerti apa yang diinginkan klien. Banyak sekali improvisasi yang dibuat dari sisi frontend maupun backend. Beberapa bug juga berhasil diperbaiki dalam waktu yang singkat, mudah2an ke depannya minim bug.

Design aplikasinya juga sangat baik dan bisa saya mengerti. Poin-poin pada proposal yang ditawarkan saat ikut bid dipenuhi semua. Code yang diberikan juga opensource, sehingga saya bisa meneruskan apabila sudah tidak kerja sama lagi.

Tapi saya berharap ke depannya kita bisa bekerja sama lagi, recommended worker, recommended person.

sampai ketemu di project selanjutnya.

Accepted Worker

muh.angga.1998
Kota Bandung
    
10.00/10.00
747 Point
#773 dari 1,097,815
Rated Owner: 10.00/10.00

> Communicative
> Jelas
> Mengerti base teknologi bisa di ajak diskusi
> Sangat membantu saat pengerjaan project

Best PO, Friendly juga <3
Semoga awet dan bermanfaat aplikasinya  
dan sukses selalu

Terimakasih banyak

      User Bids

 

Recommended Workers

rakifsul

27,395 points
78 projects
    
10.00/10.00

manakreatif

18,642 points
149 projects
    
9.76/10.00

Muhammad.Rahman

17,917 points
190 projects
    
9.80/10.00

programmerkreatif

12,122 points
53 projects
    
9.61/10.00

arkhan7

10,595 points
190 projects
    
9.82/10.00

Recommended Services

Tiru Website Lain Sesuai Keinginan (Cloning)

Rp 650,000
18 sales
    
9.83/10.00

Jasa Pembuatan website Wordpress + Elementor

Rp 650,000
13 sales
    
10.00/10.00

Jasa pembuatan landing page

Rp 400,000
12 sales
    
9.92/10.00

Script API Mutasi Bank BCA Personal

Rp 2,000,000
3 sales
    
9.00/10.00

Open Projects

Decode Ioncube PHP Script

Owner: Allwis_Edy
Budget: Rp 100,001 - 100,001

Pembuatan Website dengan CMS Wordpress

Owner: pipin13
Budget: Rp 1,000,000 - 2,000,000

Pembuatan website film berbasis wordpress

Owner: rizqifadil
Budget: Rp 1,000,000 - 3,000,000

Pembuatan web pencari pekerjaan untuk pekerja

Owner: rizqifadil
Budget: Rp 50,000,000 - 75,000,000

Buat Project Warehouse & Logistic Management System

Owner: daudrobby
Budget: Rp 5,000,000 - 20,000,000

 


Live Chat