0% Complete
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
بررسی تأثیر بالقوه فناوری بلاکچین بر کاهش مدیریت سود در شرکتهای بورسی: یک تحلیل مبتنی بر نگرش کارشناسان و متخصصین
ضرغام داداش زاده
استفاده از هوش مصنوعی در بهینهسازی حسابداری و حسابرسی نهادهای دولتی
سعید نوری - مرتضی گل محمدی
برنامه ریزی مالی به جای وحشت زدگی در بازارهای نوسانی
رویا باغ میرانی
تاثیر استقلال کمیته های حسابرسی بر محتوای اطلاعاتی اعلان سود با نقش کیفیت حاکمیت شرکتی در بورس اوراق بهادار تهران
بهزاد مظفری - هاتف ملازاده - رضا عشقی
آمایش گردشگری مناطق ایران و هوش مصنوعی
محمدعلی فیض پور - مهدیه پیروی
تاثیر سوء گیری مالی بر قابلیت مقایسه اطلاعات مالی با تاکید بر کیفیت حسابرسی
ابراهیم نویدی عباسپور - صالح بهروز گجین
تاثیر قدرت مدیر عامل بر کیفیت گزارشگری مالی
یعقوب پور کریم - میلاد حبیب اللهی - ابوالفضل بخشی قیسناب
Advanced Computational Intelligence for Financial Market Forecasting and Decision-Making: A Synthesis of Deep Learning and Machine Learning Approaches
Mahdi Rastkar Mirzaei - Ramin Saman Azari
پیشبینی جهت حرکت قیمت طلا در بازار فارکس مبتنی بر نمایانگرهای ایچیموکو با استفاده از روشهای سنتی یادگیری ماشین
محمد رزاقی - محمدحسین خسروی - فاطمه یوسف زاده
بررسی نقش رهبران سازمانها و کاربرد هوش مصنوعی در کسب و کارها
حسین علی آبادی
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 41.8.1