• (022) 6902 1117

Bot Web Scrapping

 

Hi Warga projects,

Saya butuh bot scraper dalam bentuk nodejs + phantomjs + cheeriojs (atau scraper dalam bentuk javascript lainnya) di backend dan vuejs atau php di frontend. Yang terpenting dapat diakses melalui browser dan bisa running di background dengan scheduled task.

Bot bertugas menscrape bagian tertentu dari URL hasil pencarian yang sudah ditentukan sebelumnya oleh saya. Bot HANYA menscrape halaman URL tersebut dan memparsing bagian-bagian yang diperlukan saja. Bot harus bisa mengexclude html tag yang tidak dibutuhkan, seperti iklan, promosi, diskon dsb.

Bot harus OPENSOURCE. Bot scraper yang saya pesan sebelumnya tiba-tiba tidak bisa jalan lagi, dan developernya menghilang sejak 11/11/2019. Untuk itu, scriptnya harus dibuka segamblang-gamblangnya, tidak diencrypt, tidak ada dependency pada service external atau service lain yang mengakibatkan bot tidak bisa jalan.

Website yang akan discrape ada 8, berupa toko online/marketplace ecommerce Indonesia.

Spesifikasi teknis bot sebagai berikut :

  1. Input berupa baris URL dari masing-masing marketplace. Contoh : "ID|NAMABARANG|URL1|URL2|URL3|URL4|URL5|URL6|URL7|URL8|HARGATERMURAH"
  2. Apabila ada URL marketplace yang tidak ingin discrape, dapat diskip dengan contoh format "ID|NAMABARANG|SKIP|URL2|URL3|URL4|URL5|SKIP|URL7|URL8|HARGATERMURAH"
  3. Input ke bot dapat berupa ratusan baris seperti contoh di atas.
  4. Output bot adalah file csv dengan kolom-kolom menyesuaikan barisan input di atas. Untuk URL yang diskip, outputnya adalah nilai "N/A".
  5. Apabila suatu URL tidak terdapat kriteria yang dicari/html tag yang dicari, atau muncul kode error dari website yang discrape, outputnya adalah "N/A".
  6. Output bot berupa 2 buah file .csv berisi sama. Satu CSV dinamakan constant.csv, satu lagi bervariasi tergantung tgl dan jam digenerate, misalkan 20190914_0930.csv. File constant.csv terdapat informasi waktu file csv dibuat. File-file tersebut dapat diakses melalui browser.
  7. Tiap selesai update/scraping, bot akan menggenerate 2 file csv, constant.csv, yang akan menimpa file constant.csv yang sudah ada, dan satu lagi bervariasi tergantung tgl dan jam digenerate, misalkan 20190914_0935.csv
  8. Ada setting untuk mengatur frekuensi scraping bot dan waktu crawling mulai satuan bulan sampai menit tertentu.
  9. Bot bisa menggunakan proxy untuk scraping. Proxy berupa multiple list IP:Port, dan bot menggunakan Proxynya secara random tiap scraping.
  10. Ada jeda tiap scraping satu baris input dan bisa diatur waktu jedanya. Waktu jeda tidak berupa fixed time, melainkan bervariasi, misalkan jeda tiap 5 detik sampai 180 detik. Bot akan secara random menjeda scrapingnya antara waktu tersebut.
Kriteria di atas dapat menyesuaikan dengan masukan dari anda.

JavaScript PHP HTML JSON NodeJS Apache Nginx Web Scrapping ReactJS VueJS

Published Budget: Rp 3,000,000
Finish Days: 45
Published Date: 11/03/2020 11:20:51 WIB
Start Date: 16/03/2020 22:11:48 WIB
Finish Date: 09/05/2020 12:09:05 WIB
Project Status: Closed
Accepted Worker: muh.angga.1998 (muh.angga.1998)
Accepted Budget: Rp 3,500,000
Project Ending: Completed

Project Owner

Rated Worker: 10.00/10.00
Mantap gan

Senang rasanya bekerja dengan mas Angga, sangat mengerti apa yang diinginkan klien. Banyak sekali improvisasi yang dibuat dari sisi frontend maupun backend. Beberapa bug juga berhasil diperbaiki dalam waktu yang singkat, mudah2an ke depannya minim bug.

Design aplikasinya juga sangat baik dan bisa saya mengerti. Poin-poin pada proposal yang ditawarkan saat ikut bid dipenuhi semua. Code yang diberikan juga opensource, sehingga saya bisa meneruskan apabila sudah tidak kerja sama lagi.

Tapi saya berharap ke depannya kita bisa bekerja sama lagi, recommended worker, recommended person.

sampai ketemu di project selanjutnya.

Accepted Worker

Rated Owner: 10.00/10.00

> Communicative
> Jelas
> Mengerti base teknologi bisa di ajak diskusi
> Sangat membantu saat pengerjaan project

Best PO, Friendly juga <3
Semoga awet dan bermanfaat aplikasinya  
dan sukses selalu

Terimakasih banyak

      User Bids

 

Recommended Workers

rakifsul

28,265 points
81 projects
    
10.00/10.00

programmerkreatif

17,226 points
72 projects
    
9.55/10.00

arkhan7

11,570 points
209 projects
    
9.83/10.00

fauzimarjalih

16,788 points
132 projects
    
9.77/10.00

vincentmikhael

8,290 points
53 projects
    
9.74/10.00

Recommended Services

Jasa Pembuatan website Wordpress + Elementor

Rp 650,000
16 sales
    
10.00/10.00

Pembuatan bot line

Rp 1,500,000
6 sales
    
10.00/10.00

Jasa pembuatan landing page

Rp 400,000
13 sales
    
9.92/10.00

Open Projects

Bantu setting scheduler di cpanel

Owner: XiangHua
Budget: Rp 100,001 - 200,000

Beli Source code seperti web travel yang tinggal pakai

Owner: agilga224
Budget: Rp 1,000,000 - 2,000,000

Mencari devlopment untuk membuat apilkasi

Owner: andarhutagalung461
Budget: Rp 5,000,000 - 10,000,000

Document Management With Storage Share

Owner: danapatidev
Budget: Rp 2,000,000 - 4,000,000

Beli Source code PPOB yang tinggal pakai

Owner: agilga224
Budget: Rp 500,000 - 1,500,000

 


Live Chat