0% Complete
English
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
تبیین ابعاد و مؤلفههای مؤثر بر موفقیت مالیات کسب و کارهای نوپا مبتنی بر قابلیتهای نوآورانه با رویکرد هوش مصنوعی در شرایط اقتصاد امروز
حسین بوذری
جنبههای حقوقی سود حاصل از تسعیر و انتقال ارزهای دیجیتالی از نظر قوانین و مقررات مالیاتی
پردیس بهاج - سید مرتضی موسوینژاد - مرتضی بیکزاده
تاثیر تجربه و شایستگی حسابرس بر اثربخشی حسابرسی با نقش میانجی گری توسعه حرفه ای حسابرسان
امین صفری - آرش درخشان مهر - مسعود احمدی منصورآباد
قوانین و مقررات مربوط به هوش مصنوعی: چالشها و فرصتها
محمد جعفری
مدیریت و فرصت های سرمایه گذاری
محمدرضا پژوهی
خودشیفتگی و تصمیم گیری مدیران: بررسی بیست سال ادبیات حسابداری
رعنا شهدآور - فاطمه ذوالفقاری - فاطمه افروزیان
بررسی رابطه عملکرد اجتماعی، زیست محیطی با عملکرد مالی شرکت های بورس اوراق بهادار تهران
بنفشه فهیمی نیری - حسین بوداقی خواجه نوبر
تأثیرات و اخلاقیات استفاده از هوش مصنوعی: شواهدی از هند
رعنا شهدآور - ثریا قربانپور کولانی جدید - فاطمه حضرتی پور
طراحی مدل هوشمند در جهت رتبهبندی شعب شرکتهای بیمه
مسعود سبزچی دهخوارقانی - میترا زابلی پیله رود
علم داده به عنوان شتابدهنده نوآوری در صنعت مهندسی
رامین احمدپور
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.3.1