0% Complete
English
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
Multiclass ICU Length-of-Stay Prediction Using Tree-Based Machine Learning Techniques
Mahyar Mohammadian - Somayeh Afrasiabi
تحلیل مقایسهای طبقهبندهای یادگیری ماشین بر روی مجموعه داده MNIST
متین نهاوندی
کشف قوانین انجمنی با استفاده از الگوریتم ژنتیک در جهت افزایش دقت تشخیص بیماری تیروئید
نرمین قادر - فرهاد سلیمانیان قره چپق
Topology Optimization for Optimal Design of Human Tibial Fixation Plates toward Improving Biomechanical Compatibility
Aida Ahmadi - Taha Goudarzi
سنجش میزان رضایت مشتریان بانک ملی شهرستان تنکابن با استفاده از مدل MCPDA
محمد اخشابی
پیاده سازی iot در زنجیره تامین، چالشها و فرصتها با در نظر گرفتن industry 4
مهدی رضایی - سلمان ولی محمدی
پیش بینی ریسک بیماری های قلبی- عروقی با استفاده از تکنیک یادگیری گروهی stacking
مهسان یقطینی - حسین اقبالی - محمدعلی اقبالی
تبیین عوامل مؤثر بازاریابی محتوای دیجیتال و هوش مصنوعی بر روابط شرکتها با برندها
حسین بوذری
2D Residual U-Net for Accurate Lumbar Vertebrae Segmentation in MRI-Based Low Back Pain Diagnosis using the SPIDER Dataset
Armita Rahimi Borgi - Abdollah Zohrabi - Ali Kazemi - Mostafa Abdolghaffar - Ramin Kordi - Parastoo Farnia - Alireza Ahmadian
بهبود امنیت شبکههای رایانش ابری مبتنی بر معماری OpenFlow با استفاده از SVM
سویل قنبرزاده چاوشی
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.2