0% Complete
فارسی
Home
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
Authors :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
Keywords :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
Abstract :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
Papers List
List of archived papers
Robust Speckle Noise Reduction in IVUS Imaging: Advancing Autoencoders and Non-Local Means with Particle Swarm Optimization
Shirin Ashtari Tondashti - Navid Adib - Mehran Alyali - Mahdis Yaghoubi - Seyed Kamaledin Setarehdan
ارزیابی کارایی روشهای اصلاح پراکندگی در تصویربرداری SPECT قلب همزمان دو ایزوتوپی
بهاره جودی ثمرین - مهسا نوری اصل
بررسی تاثیر شبکه عصبی مصنوعی بر روی دقت مدل های مربوط به برآوردهای حسابداری
جمال برزگر خانقاه - سیدمحسن صالحی وزیری
Engagement of shareholders in the company
Mahdi Rastkar Mirzaei - Ramin Saman Azari
تأثیرات دیجیتالسازی بر مدلهای کسبوکار و استراتژیهای بازار.
سجاد یوسفی - مریم پورنجف - سیده محدثه موسوی - نازنین حسنوند
Optimization Dynamic Stability and Energy Efficiency in Human-Like Bipedal Robot Over a Full Gait Cycle
Mahdi Sadeghi - Mostafa Rostami - Soroush Sadeghnejad
نقش ارزیابی عملکرد در مدیریت صحیح منابع انسانی (با تاکید بر نقش مدیران میانی)
محمد خدایی قلقاچی
پلتفرم هوشمند «دستیار پیمانکار»
محمد عبدالهی سنو
OpenSim Musculoskeletal Modeling Framework for sEMG-Based Knee Torque Estimation
Mohammad-Reza Sayyed Noorani - Mariya A. Vaziry - Seyed Alireza MirTajeddini
تحلیل مقایسهای طبقهبندهای یادگیری ماشین بر روی مجموعه داده MNIST
متین نهاوندی
more
Samin Hamayesh - Version 43.6.0