+62 813-8532-9115 info@scirepid.com

 
tc - Techno.Com - Vol. 24 Issue. 1 (2025)

Analisis Performa Deep Embedded Clustering untuk Pendeteksian Topik

Danu Julian Cahyadi, Hendri Murfi, Yudi Satria, Sarini Abdullah, Yekti Widyaningsih,



Abstract

Pendeteksian topik adalah solusi untuk mengungkap struktur laten dalam sebuah dokumen. Kerangka umum pendeteksian topik berbasis clustering terdiri dari dua langkah: pembelajaran representasi dan pendeteksian topik melalui clustering. Dalam penelitian ini, Bidirectional Encoder Representations from Transformers (BERT) digunakan untuk pembelajaran representasi karena BERT mampu menangkap konteks setiap kata berdasarkan kata-kata di sekitarnya. Representasi teks yang diperoleh dari BERT digunakan untuk pendeteksian topik dengan clustering. Deep Embedded Clustering (DEC) dan Improved DEC (IDEC) adalah model clustering berbasis deep learning yang digunakan dalam penelitian ini untuk pendeteksian topik. DEC dan IDEC mampu mengubah data ke dalam ruang dimensi yang lebih rendah serta mengoptimalkan cluster secara simultan. Output dari teknik clustering berupa kata-kata kunci yang menggambarkan setiap topik cluster. Setelah mendapat kata kunci yang mewakili topik, evaluasi model dilakukan dengan melakukan perbandingan nilai topic coherence menggunakan Topic Coherence - Word2Vec (TC-W2V) sebagai analisis kuantitatif. Penelitian ini merupakan perluasan dari penerapan DEC dan IDEC pada pendeteksian topik dengan menambahkan analisis visualisasi dan kata kunci. Simulasi menunjukkan bahwa DEC dan IDEC mengungguli Uniform Manifold  Approximation and Projection (UMAP)-based k-means (UKM) dan Eigenspace-Based Fuzzy C-Means (EFCM) dari segi nilai TC-W2V, hasil visualisasi, dan kata kunci.
 
Kata kunci: analisis teks, deep clustering, pemrosesan teks







DOI :


Sitasi :

0

PISSN :

1412-2693

EISSN :

2356-2579

Date.Create Crossref:

28-Feb-2025

Date.Issue :

26-Feb-2025

Date.Publish :

26-Feb-2025

Date.PublishOnline :

26-Feb-2025



PDF File :

Resource :

Open

License :

https://creativecommons.org/licenses/by-nc/4.0