0% Complete
English
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
تحلیل محتوا و دادهکاوی نظرات کاربران ایرانی درباره برندهای آرایشی منتخب در شبکههای اجتماعی با هوش مصنوعی
بهزاد بالازاده - حسین بوداقی - نازلی قراچورلو
بررسی تأثیر هوش مصنوعی بر استراتژیهای بازاریابی در کسبوکارهای الکترونیک در ایران
مریم ذاکریبرنطین - هادی اسماعیلی درمیان
Hierarchical Task-Structured GNN Meta-Learning for Few-Shot EEG Motor Imagery Decoding
Mohammad Armin Dehghan - Mohammad Mohammadianbisheh - Mohammad Bagher Shamsollahi
بررسی سه روش شبکه های عصبی بازمانده ، شبکه عصبی کانولوشنی و مدل های حافظه کوتاه مدت در شناسایی اخبار جعلی
بهاره هاشم زاده - مجید عبدالرزاق نژاد
مخابرات و اینترنت اشیا: زیرساختهای نوین برای اقتصاد دیجیتال
سجاد یوسفی - مریم پورنجف - آمنه احمدی - شکوفه گرینی - حسنا هاشم بیگی
Machine Learning and Deep Learning Approaches for Fake News Detection: A Comprehensive Survey
Arian Hajati - Azita Shirazipour - Seyed Javad Mirabedini
کاربرد هوش مصنوعی در مدیریت ارتباط با مشتری
سعیده شریفی علون آبادی - ناصر خانی
Coronary Full artery segmentation using U-Net neural network architecture
Rezvan Monjezi - Mahdieh Ghasemi - Mahdi Salehi - Alireza Rowhanimanesh - Samaneh Tabaee
مطالعه ای بر بهبود مدیریت ارتباط با مشتری با استفاده از هوش مصنوعی
اسماعیل محبی کندسری
چگونگی تاثیر هوش مصنوعی بر موقعیت رقابتی سازمان های بهداشت و درمان
مهدی زینالی - نیما قاسم زاده شهرک
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.3.0