K-Medoids Clustering untuk Pembentukan Database Stopword Bahasa Jawa

Aji Prasetya Wibawa, Farid Miftahuddin, Suyono Suyono

Abstract


Stopword is a word that can be ignored in the natural language process. This word removal process does not affect the text analysis process. The technique used to remove stopword is called Stopword Removal. This technique matches words to a stopword list. If the word is in the list it will be deleted. Javanese language to date still has a limited list of stopword. This study aims to form a list of stopword using cluster techniques namely K-medoids clustering. This technique groups words by occurrence in Javanese text. Each cluster result is tested by matching it with a stopword of javanese expert identification. The results of this study suggest that the stopword produced by k-medoids clustering with a value of K=13 has an accuracy of 70.5%.

 

Abstrak

Stopword merupakan kata yang bisa diabaikan dalam permrosesan bahasa alami. Proses penghapusan kata ini ini tidak mempengaruhi proses analisis teks. Teknik yang digunakan untuk menghapus stopword disebut Stopword Removal. Teknik ini mencocokkan kata dengan daftar stopword (stoplist). Apabila kata tersebut terdapat pada daftar maka akan dihapus. Bahasa jawa sampai saat ini masih memiliki daftar stopword yang terbatas. Penelitian ini bertujuan membentuk daftar stopword menggunakan teknik cluster yakni K-medoids clustering. Teknik ini mengelompokkan kata berdasarkan kemunculan dalam teks bahasa Jawa. Dalam penerapannya, metode yang digunakan dalam penelitian ini terdiri dari lima tahap. Tahapan penelitian tersebut dimulai dari pengumpulan dataset, preprocessing data, clustering, dan terakhir adalah evaluasi. Setiap hasil cluster diuji dengan mencocokkannya dengan stopword hasil identifikasi ahli bahasa Jawa. Hasil penelitian ini menunujkkan bahwa stopword yang dihasilkan k-medoids clustering dengan nilai K=13 yang memiliki akurasi sebesar 70,5%.


Keywords


stopword; Javanese Language; K-medoids; clustering

References


Amalia, A., Lydia, M. S., Fadilla, S. D., & Huda, M. (2018). Perbandingan Metode Klaster dan Preprocessing Untuk Dokumen Berbahasa Indonesia. Jurnal Rekayasa Elektrika, 14(1), 35-42. https://doi.org/10.17529/jre.v14i1.9027

https://doi.org/10.17529/jre.v14i1.9027

Budhi, G. S., Gunawan, I., & Yuwono, F. (2006). Algoritma Porter Stemmer For Bahasa Indonesia Untuk Pre-Processing Text Mining Berbasis Metode Market Basket Analysis. PAKAR Jurnal Teknologi Informasi Dan Bisnis, 7(3).

Ethnologue. (2021). What are the top 200 most spoken languages? Ethnologue Languages of the World. https://www.ethnologue.com/guides/ethnologue200

Gordon Jr, R. G. (2005). Ethnologue, languages of the world. SIL International.

Hayuningtyas, R. Y., & Sari, R. (2019). Analisis Sentimen Opini Publik Bahasa Indonesia terhadap Wisata TMII Menggunakan Naïve Bayes dan PSO. Jurnal Techno Nusa Mandiri, 16(1), 37-42. https://doi.org/10.33480/techno.v16i1.115

https://doi.org/10.33480/techno.v16i1.115

Kridalaksana, H. (2001). Wiwara: pengantar bahasa dan kebudayaan Jawa. Gramedia Pustaka Utama.

Madhulatha, T. S. (2011). Comparison between K-Means and K-Medoids Clustering Algorithms. In D. C. Wyld, M. Wozniak, N. Chaki, N. Meghanathan, & D. Nagamalai (Eds.), Advances in Computing and Information Technology (pp. 472-481). Springer. https://doi.org/10.1007/978-3-642-22555-0_48

https://doi.org/10.1007/978-3-642-22555-0_48

Manning, C., Nayak, P., & Raghavan, P. (2009). Introduction to Information Retrieval: Probabilistic information retrieval.

https://doi.org/10.1017/CBO9780511809071

Muslimah, N., Indriati, I., & Wihandika, R. C. (2018). Klasifikasi Film Berdasarkan Sinopsis dengan Menggunakan Improved K-Nearest Neighbor (K-NN). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 3(1), 196-204.

Nursirwan, N. (2012). Klasifikasi Leksikostatistik Bahasa Melayu Langkat, Bahasa Melayu Deli, Dan Bahasa Dairi Pakpak. Fakultas Ilmu Budaya Universitas, 10.

Oakes, M. P. (2016). Javanese. In B. Comrie (Ed.), The World's Major Languages (p. 14). Routledge. https://doi.org/10.4324/9781315084862-76

Pramesti, D. F., Furqon, M. T., & Dewi, C. (2017). Implementasi Metode K-Medoids Clustering Untuk Pengelompokan Data Potensi Kebakaran Hutan/Lahan Berdasarkan Persebaran Titik Panas (Hotspot). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer E-ISSN, 1(9), 723-732.

Ramadhani, R. D., & Januarita AK, D. (2019). Evaluasi K-Means dan K-Medoids pada Dataset Kecil. SNIA (Seminar Nasional Informatika dan Aplikasinya).

Saddhono, K., & Hartanto, W. (2021). A dialect geography in Yogyakarta-Surakarta isolect in Wedi District: An examination of permutation and phonological dialectometry as an endeavor to preserve Javanese language in Indonesia. Heliyon, 7(7), e07660. https://doi.org/10.1016/j.heliyon.2021.e07660

https://doi.org/10.1016/j.heliyon.2021.e07660

Tan, P. N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining. Pearson.

Triyanto, W. A. (2015). Algoritma K-Medoids Untuk Penentuan Strategi Pemasaran Produk. Simetris: Jurnal Teknik Mesin, Elektro Dan Ilmu Komputer, 6(1), 183-188.

https://doi.org/10.24176/simet.v6i1.254

Velmurugan. (2010). Computational Complexity between K-Means and K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points. Journal of Computer Science, 6(3), 363-368. https://doi.org/10.3844/jcssp.2010.363.368

https://doi.org/10.3844/jcssp.2010.363.368

Wardani, N. A., & Suwartono, T. (2019). Javanese Language Interference in the Pronunciation of English Phonemes. Celtic: A Journal of Culture, English Language Teaching, Literature and Linguistics, 6(2), 14-25. https://doi.org/10.22219/celtic.v6i2.8589

https://doi.org/10.22219/celtic.v6i2.8589

Wibawa, A. P., Fithri, H. K., Zaeni, I. A. E., & Nafalski, A. (2020). Generating Javanese Stopwords List using K-means Clustering Algorithm. Knowledge Engineering and Data Science, 3(2), 106. https://doi.org/10.17977/um018v3i22020p106-111

https://doi.org/10.17977/um018v3i22020p106-111

Zayuka, H., Nasution, S. M., & Purwanto, Y. (2017). Perancangan Dan Analisis Clustering Data Menggunakan K-medoids Untuk Berita Berbahasa Inggris. EProceedings of Engineering, 4(2).




DOI: https://doi.org/10.26499/rnh.v10i2.2125

Refbacks

  • There are currently no refbacks.