0% Complete
فارسی
Home
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
Authors :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
Keywords :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
Abstract :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
Papers List
List of archived papers
Design and fabrication of a cost-effective dry electrode for electroencephalography (EEG) signal acquisition
Sobhan Sheykhivand - Nastaran Khaleghi - Lida Zareh Lahijan
The Effects of Levodopa and Visual Information on The Complexity of Postural Control in Parkinson’s Disease Patients With and Without Freezing of Gait Through a Multiscale Entropy Approach
Kiarash Banan Motarjem - َAmirhassan Khalouzadeh Mobarakeh - Aria Behroozi - Elham Shirzad Araghi
بکارگیری یک استراتژی دیجیتال برای نوآوری های اجتماعی و تجاری
محمد رستمی - سمیه فرهادی
نقش یادگیری عمیق در توسعه هوش مصنوعی و کاربردهای آن در صنعت، تجارت و زنجیره تأمین
آیدا مهرنیا
بررسی رابطه بین کیفیت حسابرسی و ویژگی های کیفی سود و هزینه سرمایه در شرکت های پذیرفته شده در بورس اوراق بهادار تهران
مهدی شامی زاده - حیدر محمدزاده سالطه
هوش مصنوعی و تحول مدیریت استعداد: گذر از رویکرد های سنتی به عصر تکنولوژی
مهسا کریمی دستنائی - مهدی ندری
کاربرد هوش مصنوعی در بهینهسازی پردازش معاملات مالی: مدل های مفهومی و آیندهپژوهی
سجاد یوسفی - مریم پورنجف - لیلا حسین آبادی
مروری سیستماتیک بر کاربرد هوش مصنوعی در تشخیص تهدیدات سایبری در زنجیره تأمین رایانش ابری
اسماعیل قاسمی - شاهین سمیع عادل
کاربرد هوش مصنوعی (AI) و رباتیک پیشرفته و رباتهای هوشمند و اتوماسیون در صنعت خودروسازی ایران (مطالعه موردی: شرکت ایرانخودرو)
حسین بوذری
بررسی عوامل موثر بر اثربخشی حسابرسی داخلی در پیشگیری از تقلب
تارا اصغرخانی
more
Samin Hamayesh - Version 42.5.2