Lompat ke konten Lompat ke sidebar Lompat ke footer

Widget Atas Posting


(Tema gelap kini tersedia)
    
Aktifkan agar pengalaman membaca menjadi lebih nyaman
    

PENGERTIAN: Text Mining dan Text Preprocessing

Pengertian Text Mining

Text Mining adalah proses penemuan akan informasi atau trend baru yang sebelumnya tidak terungkap dengan memproses dan menganalisa data dalam jumlah besar. Dalam menganalisa sebagian atau keseluruhan unstructured text, text mining mencoba untuk mengasosiasikan satu bagian teks dengan yang lainnya berdasarkan aturan tertentu. Hasil yang diharapkan adalah informasi baru atau "insight" yang tidak terungkap jelas sebelumnya (Adiwijaya, 2006).

 


 

Aplikasi text mining bisa dibagi berdasarkan tipe unstructured text yang diproses. Untuk unstructured text dalam bentuk email, instant messages, dan blog, pada umumnya pengguna ingin mencari informasi mengenai orang atau organisasi (seperti nama, alamat) dan suatu peristiwa (seperti penemuan baru).

 

Untuk berita, text mining biasanya digunakan untuk membandingkan beberapa dokumen yang berasal dari sumber berbeda analisa isi berita berdasarkan waktu publikasi. Untuk buku dan artikel sains, text mining biasanya digunakan untuk mendeteksi trend dibidang riset tertentu dengan memonitor jumlah publikasi dalam jangka waktu tertentu (Adiwijaya, 2006).


Pengertian Text Preprocessing

Text Preprocessing merupakan salah satu tahapan dalam analisis teks atau text mining. Text preprocessing menerima data teks asli sebagai masukkannya dan menghasilkan token sebagai keluarannya, yang mana merupakan sebuah kata tunggal atau kumpulan beberapa kata yang sudah melalui beberapa tahapan pembersihan yang nantinya digunakan sebagai bahan analisis (Anandarajan, et al., 2019). 

 

Pengertian Text Mining dan Pengertian Text Preprocessing

 

 Secara umum, text preprocessing terdiri dari empat tahapan, yaitu:

1. Unitization dan tokenization

Tahap unitize merupakan tahap untuk pemilihan jumlah unit yang akan digunakan saat pemecahan data dan tokenize merupakan tahap pembagian atau pemecahan data teks berdasarkan jumlah unit yang ditentukan. Unit tersebut bisa berupa kata tunggal (unigram) atau sekumpulan kata(N-gram).

2. Standardization dan cleaning

Tahap standardization merupakan tahap pengubahan kata pada teks menjadi huruf kapital atau huruf kecil dan tahap cleaning merupakan tahap penghilangan angka, tanda baca, dan karakter spesial. Pada penelitian lain (Uysal & Gunal, 2014), tahap ini disebut dengan word normalization atau lowercase conversion, dan tahap cleaning diikutsertakan pada tahap stop word removal.

3. Stop word removal

Tahap stop word removal adalah tahap penghilangan kata yang tidak memiliki makna atau yang termasuk kedalam kumpulan kata henti suatu bahasa.

4. Stemming atau lemmatization, 

Tahap terakhir dari text preprocessing adalah menjalankan atau menggunakan salah satu dari stemming atau lemmatization pada dokumen. Stemming dan lemmatizaiton sama-sama mengubah kata menjadi bentuk dasarnya. Stemming mengubah kata menjadi kata dasar dengan cara menghilangkan imbuhan kata tersebut (Porter, 1980).

 

Algoritma stemming yang biasa digunakan adalah algoritma Porter. Lemmatization mengubah kata menjadi kata dasar dengan cara memasukkan informasi mengenai part of speech pada suatu kata (Yatsko, 2011).

 

Kata-kata dalam sudut pandang orang ketiga diubah menjadi sudut pandang orang pertama dan kata kerja dalam bentuk lampau (past tense) dan mendatang (future tense) diubah kedalam bentuk saat ini (present tense).

 

Setiap tahap yang dilakukan bertujuan untuk menghilangkan informasi yang sifatnya tidak penting dari teks asli. Preprocessing data teks yang baik akan membuat proses analisis menjadi lebih lancar dan dapat menghasilkan analisis yang baik. Dalam analisis teks, lebih banyak waktu yang digunakan dalam mempersiapkan dan preprocessing data teks, dibandingkan dalam analisis itu sendiri (Dumais, et al., 1998).

KIRIM MASUKAN

T Nurandhari
T Nurandhari wuryantoro.com - Blogger Jalanan belajar menulis artikel pendidikan, ekonomi, keuangan, kesehatan, seni dan seputar teknologi internet, web dan juga pemerhati pendidikan di Indonesia. twitter | github | youtube | rss | blogger | rss
Posting Komentar untuk Tulisan Ini.