0% Complete
English
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
مدیریت زنجیره تأمین پایدار، اقتصادهای نوظهور، فناوری بلاکچین، دادههای مکانی، شفافیت، ردیابی و اعتماد اجتماعی
علیرضا خرمی
درآمدزایی از آزادی: تحلیل مدل کسبوکار نرمافزارهای آزاد
محمد امیری نسب - آرمان محبعلی - امید دادرس
A Combined Time-Frequency and Common Spatial-Spectral Pattern Approach for EEG-Based Motor Imagery Classification
Reza Nejati - Hamed Danandeh Hesar
بهینهسازی ساختار نانوالیافی داربست پلیمری با دندریمر پلی آمیدو آمین برای استفاده در مهندسی بافت عصب
حمید جبار
کاربرد هوش مصنوعی در ارتقای امنیت اینترنت اشیاء: از الگوریتمهای یادگیری عمیق تا استراتژیهای سازمانی
علی غلام نتاج - محمدعرفان رحمانیان کوشککی - امیدرضا حمیدی نیا - عباسعلی میرزایی فرد
کاربردهای کلانداده در حسابداری: شناسایی تقلبهای مالی و ارتقاء شفافیت مالی
الناز شاکری فر
هوشمندسازی زنجیره تأمین با بهرهگیری از الگوریتمهای هوش مصنوعی
غلامرضا جمالی - محمدهادی نامور
Non-Invasive Detection of Atherosclerosis and Aneurysm via Electrical Impedance Spectroscopy: A Finite Element Simulation Study
Shaghayegh Shokri - Rasool Baghbani - Masoomeh Ashoorirad
تاثیر عدم تقارن اطلاعاتی بر ارتباط بین عدم اطمینان اقتصادی و متنوعسازی شرکتی
ناهیده شاهنده ننه کران - امین آرام گر - مهدی عبدالهی شتربانی
Dynamic Cross-Frequency Coupling Reveals Task Dependent Neural Engagement During Varying Cognitive Demands
Seyed Saman Sajadi - Babak Fazli - Fateme Karbasi - Ehsan Garosi - Milad Jalilian - Soheila Hosseinzadeh - Amir Homayoun Jafari - Seyed Abolfazl Zakerian
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.4.1