Bulk Scraping email dari contact us page sebuah website

 

Saya ingin membuat program berbasis desktop pengambil alamat email di halaman contact us sebuah website secara massal, dalam artian program ini sekali run bisa mengambil email dari banyak website.

Cara kerjanya : (setelah list domain atau nama website dimasukkan)

1.       Program dirun

2.       Website dibuka atau masuk ke homepage

3.       Menemukan halaman contact us

4.       Mengidentifikasi email dengan mencari kata yang ada tanda @ (Akumilit) dan . (titik)

5.       Scrape

6.       Ke website selanjutnya

Cara menemukan halaman contact us dicari dulu kata kata text link (anchor text) yang bisa di customisasi. Jadi di UI (user interface)nya ada kolom untuk memasukan kata kata apa saja yang perlu di cari di halaman homepage sebuah website yang nantinya akan mengarahkan ke dalam contact us pagenya dan bias disave.

Contoh kata katanya

Contact us

Contact

Get in touch

Urutan baris menentukan prioritas, jadi berdasarkan contoh diatas berarti yang harus dicari terlebih dahulu adalah contact us kalau tidak ada baru contact, dst. Hal ini untuk mengatasi kalau kalau ada lebih dari satu kata text linknya.

Ada kemungkinan di dalam 1 halaman contact us pagenya mempunyai lebih dari 1 buah email, untuk kasus ini maka ada 3 opsi tambahan di UI programnya ,

1.       Discrape semua (dipisahkan dengan koma)

2.       Discrape email pertama saja. (hanya 1 email)

3.       Diberikan prioritas untuk email yang mengandung kata kata (dapat dicustomisasi) (ditambah kolom untuk memuat list kata katanya). (hanya 1 email)

Untuk opsi ketiga ini berarti konsepnya sama dengan ketika mencari halaman contact usnya, jadi misalnya kata katanya adalah :

Director

Chairman

Admin

Gmail

Urutan baris menentukan prioritas Jadi berdasarkan contoh diatas, maka apabila ada email yang mengadung kata2 director maka didaulukan. Misalnya ada 3 buah email

[email protected] [email protected] [email protected] [email protected] 

maka kata yang discrape cukup [email protected] saja. Sebagai tambahan, kalau ada email yang sama dalam sebuah halaman contact us maka yang satunya diskip atau dihilangkan, jadi cukup diambil 1 saja.

 

Sedangkan format reportnya

Nama Website                  jumlah (email yang discrape)                      email

Website1.com                   x                                                              [email protected], , dst

Ada contoh aplikasi yang sudah jadi dalam bentuk jar (Ajax), dulu pernah dibuatin cuman dibagian mencari contact usnya gk bias dicustomisasi, kalau bisa agan buatnya dalam bentuk ajax juga soalnya aplikasi yang dulu ini prosesnya lumayan cepet, tapi kalau make yang lain juga gk papa asalkan cepet juga prosesnya. Silahkan pm atau bid aja nanti ane kirimin contoh aplikasinya.

O iya, tolong reportnya ditulis selama programnya berjalan, tidak ditulis setelah semua proses selesai. hal ini untuk menghindari terjadinya hang atau pc mati,  atau program tertutup secara mendadak, jadi tidak diulang dari awal.

 

 

Delphi XE/XE2 Java C/C++ Delphi VisualBasic Desktop Programming Visual Studio

Project Class: Small (500rb-5jt)
Published Budget: Rp 1,000,000
Finish Days: 3
Published Date: 29/12/2016 06:36:27 WIB
Start Date:
Project Status: No Action
Accepted Worker:
Accepted Budget: Rp 0
Project Ending:
Finish Date:

Project Owner

didik321
    
8.67/10.00
165 Point
#757 dari 96,921

Accepted Worker

Bid masih terbuka.

Place New Bid

  User Bids

flying_dutchman
    
9.82/10.00

godamri
    
9.71/10.00

Flatstudioweb.com
    
10.00/10.00

Roqiba
    
9.31/10.00

bangrifkid
    
8.94/10.00

derodevil
    
9.45/10.00

hariamanah
    
8.00/10.00

radit_07
    
0.00/10.00

Luthfifs97
    
0.00/10.00

aye.aha
    
0.00/10.00

Recommended Workers

1v4nWorld

1,384 points
9 projects
    
10.00/10.00

appzone

3,578 points
18 projects
    
9.84/10.00

derodevil

1,524 points
10 projects
    
9.45/10.00

Iswanto

9,661 points
175 projects
    
9.54/10.00

cwhalim

797 points
5 projects
    
10.00/10.00

Recommended Services

Open Projects

Butuh freelancer untuk membuat program windows seperti ini

Open to SuggestionsOwner: rigret
Deadline: 7 days

Accounting System Enhancement (Desktop Application)

Open to SuggestionsOwner: dotnethunter
Deadline: 11 days

Aplikasi Enkripsi/Dekripsi menggunakan Algoritma Skipjack dan McEliece

Rp 2,000,000Owner: tatakdudung
Deadline: 15 days

Butuh bantuan untuk membuat aplikasi (32-bit) dengan menggunakan ASM/C

Open to SuggestionsOwner: ronaldtambupolon
Deadline: 7 days

Membuka ZIP File Lupa Password

Open to SuggestionsOwner: ownerepo
Deadline: 2 days