K-Medoids Clustering untuk Pembentukan Database Stopword Bahasa Jawa
Abstract
Stopword is a word that can be ignored in the natural language process. This word removal process does not affect the text analysis process. The technique used to remove stopword is called Stopword Removal. This technique matches words to a stopword list. If the word is in the list it will be deleted. Javanese language to date still has a limited list of stopword. This study aims to form a list of stopword using cluster techniques namely K-medoids clustering. This technique groups words by occurrence in Javanese text. Each cluster result is tested by matching it with a stopword of javanese expert identification. The results of this study suggest that the stopword produced by k-medoids clustering with a value of K=13 has an accuracy of 70.5%.
Abstrak
Stopword merupakan kata yang bisa diabaikan dalam permrosesan bahasa alami. Proses penghapusan kata ini ini tidak mempengaruhi proses analisis teks. Teknik yang digunakan untuk menghapus stopword disebut Stopword Removal. Teknik ini mencocokkan kata dengan daftar stopword (stoplist). Apabila kata tersebut terdapat pada daftar maka akan dihapus. Bahasa jawa sampai saat ini masih memiliki daftar stopword yang terbatas. Penelitian ini bertujuan membentuk daftar stopword menggunakan teknik cluster yakni K-medoids clustering. Teknik ini mengelompokkan kata berdasarkan kemunculan dalam teks bahasa Jawa. Dalam penerapannya, metode yang digunakan dalam penelitian ini terdiri dari lima tahap. Tahapan penelitian tersebut dimulai dari pengumpulan dataset, preprocessing data, clustering, dan terakhir adalah evaluasi. Setiap hasil cluster diuji dengan mencocokkannya dengan stopword hasil identifikasi ahli bahasa Jawa. Hasil penelitian ini menunujkkan bahwa stopword yang dihasilkan k-medoids clustering dengan nilai K=13 yang memiliki akurasi sebesar 70,5%.
Keywords
Full Text:
PDF (Bahasa Indonesia)References
Amalia, A., Lydia, M. S., Fadilla, S. D., & Huda, M. (2018). Perbandingan Metode Klaster dan Preprocessing Untuk Dokumen Berbahasa Indonesia. Jurnal Rekayasa Elektrika, 14(1), 35-42. https://doi.org/10.17529/jre.v14i1.9027
https://doi.org/10.17529/jre.v14i1.9027
Budhi, G. S., Gunawan, I., & Yuwono, F. (2006). Algoritma Porter Stemmer For Bahasa Indonesia Untuk Pre-Processing Text Mining Berbasis Metode Market Basket Analysis. PAKAR Jurnal Teknologi Informasi Dan Bisnis, 7(3).
Ethnologue. (2021). What are the top 200 most spoken languages? Ethnologue Languages of the World. https://www.ethnologue.com/guides/ethnologue200
Gordon Jr, R. G. (2005). Ethnologue, languages of the world. SIL International.
Hayuningtyas, R. Y., & Sari, R. (2019). Analisis Sentimen Opini Publik Bahasa Indonesia terhadap Wisata TMII Menggunakan Naïve Bayes dan PSO. Jurnal Techno Nusa Mandiri, 16(1), 37-42. https://doi.org/10.33480/techno.v16i1.115
https://doi.org/10.33480/techno.v16i1.115
Kridalaksana, H. (2001). Wiwara: pengantar bahasa dan kebudayaan Jawa. Gramedia Pustaka Utama.
Madhulatha, T. S. (2011). Comparison between K-Means and K-Medoids Clustering Algorithms. In D. C. Wyld, M. Wozniak, N. Chaki, N. Meghanathan, & D. Nagamalai (Eds.), Advances in Computing and Information Technology (pp. 472-481). Springer. https://doi.org/10.1007/978-3-642-22555-0_48
https://doi.org/10.1007/978-3-642-22555-0_48
Manning, C., Nayak, P., & Raghavan, P. (2009). Introduction to Information Retrieval: Probabilistic information retrieval.
https://doi.org/10.1017/CBO9780511809071
Muslimah, N., Indriati, I., & Wihandika, R. C. (2018). Klasifikasi Film Berdasarkan Sinopsis dengan Menggunakan Improved K-Nearest Neighbor (K-NN). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 3(1), 196-204.
Nursirwan, N. (2012). Klasifikasi Leksikostatistik Bahasa Melayu Langkat, Bahasa Melayu Deli, Dan Bahasa Dairi Pakpak. Fakultas Ilmu Budaya Universitas, 10.
Oakes, M. P. (2016). Javanese. In B. Comrie (Ed.), The World's Major Languages (p. 14). Routledge. https://doi.org/10.4324/9781315084862-76
Pramesti, D. F., Furqon, M. T., & Dewi, C. (2017). Implementasi Metode K-Medoids Clustering Untuk Pengelompokan Data Potensi Kebakaran Hutan/Lahan Berdasarkan Persebaran Titik Panas (Hotspot). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer E-ISSN, 1(9), 723-732.
Ramadhani, R. D., & Januarita AK, D. (2019). Evaluasi K-Means dan K-Medoids pada Dataset Kecil. SNIA (Seminar Nasional Informatika dan Aplikasinya).
Saddhono, K., & Hartanto, W. (2021). A dialect geography in Yogyakarta-Surakarta isolect in Wedi District: An examination of permutation and phonological dialectometry as an endeavor to preserve Javanese language in Indonesia. Heliyon, 7(7), e07660. https://doi.org/10.1016/j.heliyon.2021.e07660
https://doi.org/10.1016/j.heliyon.2021.e07660
Tan, P. N., Steinbach, M., & Kumar, V. (2006). Introduction to Data Mining. Pearson.
Triyanto, W. A. (2015). Algoritma K-Medoids Untuk Penentuan Strategi Pemasaran Produk. Simetris: Jurnal Teknik Mesin, Elektro Dan Ilmu Komputer, 6(1), 183-188.
https://doi.org/10.24176/simet.v6i1.254
Velmurugan. (2010). Computational Complexity between K-Means and K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points. Journal of Computer Science, 6(3), 363-368. https://doi.org/10.3844/jcssp.2010.363.368
https://doi.org/10.3844/jcssp.2010.363.368
Wardani, N. A., & Suwartono, T. (2019). Javanese Language Interference in the Pronunciation of English Phonemes. Celtic: A Journal of Culture, English Language Teaching, Literature and Linguistics, 6(2), 14-25. https://doi.org/10.22219/celtic.v6i2.8589
https://doi.org/10.22219/celtic.v6i2.8589
Wibawa, A. P., Fithri, H. K., Zaeni, I. A. E., & Nafalski, A. (2020). Generating Javanese Stopwords List using K-means Clustering Algorithm. Knowledge Engineering and Data Science, 3(2), 106. https://doi.org/10.17977/um018v3i22020p106-111
https://doi.org/10.17977/um018v3i22020p106-111
Zayuka, H., Nasution, S. M., & Purwanto, Y. (2017). Perancangan Dan Analisis Clustering Data Menggunakan K-medoids Untuk Berita Berbahasa Inggris. EProceedings of Engineering, 4(2).
DOI: https://doi.org/10.26499/rnh.v10i2.2125
Refbacks
- There are currently no refbacks.