Saya perlu bantuan dari Anda yang sudah terbiasa dengan NLP (Natural Language Processing).
Untuk bahasa pemrograman bebas tapi saya prefer java.
Input adalah berupa file docx dan/atau PDF (bisa menggunakan library PDFbox atau tools yg lain), dokumen tersebut kemudian diparsing dan diberi annotasi (menggunakan library atau API NLP yang sudah ada), kemudian berdasarkan annotasi tersebut dilakukan pencarian kalimat dengan pola annotasi yang ditentukan, misal cari kalimat yang susunannya adalah : NOUN + VERB + "and" + VERB.
Hasilnya kemudian kemudian disimpan dalam database, bebas tapi saya prefer ms.access.
Oh iya, setelah project selesai saya memerlukan executable beserta sourcecode lengkap termasuk library-library yang digunakan, serta minta bantuan untuk demo via remote ke laptop saya bagaimana agar sourcecode tersebut bisa di-compile/build.
Saya masih mahasiswa dan mohon bantuannya, salam sukses untuk Anda. penjelasan detail lebih lanjut bisa via chat / conversation.