0% Complete
فارسی
Home
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
Authors :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
Keywords :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
Abstract :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
Papers List
List of archived papers
بازاندیشی در تحول آموزش و توسعه مهارت در عصر هوش مصنوعی؛ مروری تحلیلی بر تجربه آموزش نوین در ایران
خدیجه سلیمیان ریزی - حسین کاظمی
تأثیر استقلال و شایستگی حسابرس بر اثربخشی کنترلهای داخلی: بررسی نقش تعدیلی تجربه حسابرس
حیدر محمدزاده سالطه - سیما فرزانه خلیفه لو - زهره نوروزی مرادلو
تاثیر هوش مصنوعی بر عملکرد شرکت با میانجیگری چابکی مشتری و ظرفیت جذب و تعدیلگری چابکی سازمان شرکت عامر اندیش هوشمند
مریم مقرب صمدی
Application of machine learning approach for prediction the heat capacity of amine
Aboozar Khajeh
تحلیل نقش رایانش ابری در چابکی زنجیره تأمین
دکتر غلامرضا جمالی - توحید بهزادی فرد - حسن ایزدی فر
تحلیل تنش روتور توربین گازی به کمک آنالیز حساسیت
پروانه امجدیان
آیندهپژوهی زنجیره تأمین بینالمللی در عصر هوش مصنوعی: چشماندازی دادهمحور به تأمین و خرید جهانی
اکرم معصومی دهقی - الهام گرک یراق - محمد علی جان نثاریان لادانی - روح اله جزینی درچه
ارزیابی تأثیر اندازه موجودیها و کیفیت سود بر توان واریز بدهی ها در بین شرکت های پذیرفته شده در بورس اوراق بهادار تهران
سمانه یاقوتی آذری - مهسا ریخته گری نظامی - نادر رضایی
مفاهیم حسابداری مدیریت راهبردی در شرکتها، مزایا، معایب و راهکارها
علی نمازیان - علی محمدی
نوآوری در مدیریت ترافیک: راهبندهای هوشمند برای مسیرهای اختصاصی اتوبوسها
رضا حبیب زاده
more
Samin Hamayesh - Version 42.0.3