0% Complete
English
☰
صفحه اصلی
کنفرانسهای فعال
مدیریت منابع انسانی پایدار
حسابداری
بازاریابی و برندینگ در عصر هوش مصنوعی
هوش مصنوعی:نوآوری، کسبوکار و آموزش
ارشیو کنفرانسها
اولین کنفرانس ملی هوش مصنوعی
دومین کنفرانس ملی هوش مصنوعی
اولین کنگره ملی حسابداری، مالی و مالیاتی
32کنفرانس بین المللی زیست پزشکی
راهنمای شرکت
نحوه ثبتنام
ثبت نام مدیریت منابع انسانی پایدار
ثبت نام دومین کنگره ملی حسابداری
ثبت نام سومین کنفرانس ملی هوش مصنوعی
ثیت نام بازاریابی و برندینگ در عصر هوش مصنوعی
ثبت نام زنجیره ارزش نفت گاز و پتروشیمی
ارسال مقاله
فرمت مقالات مدیریت منابع انسانی پایدار
فرمت مقالات سیستم های هوشمند حسابداری
فرمت مقالات ملی بازاریابی و برندینگ در عصر هوش مصنوعی
فرمت مقالات سومین کنفرانس هوش مصنوعی
سوالات متداول
اخبار و رویدادها
درباره ما
تماس با ما
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
تاثیر هوش مصنوعی بر تغییرات سیاست های مالی: چالش ها و فرصت ها
بهارک یادگار جمشیدی - جمال سبک دستی - زینب رضائی - امین مقتدری
Grating Lobe Suppression in Sparse Coprime Array Ultrasound Imaging by Null Alignment
Mina Ezati - Vahid AminNilii - Zahra Kavehvash
حریم خصوصی کاربران در الگوریتمهای یادگیری ماشین: تهدیدها و راهکارها
لیلا سامان آذری
Graph Convolutional Network–Based Surrogate Modeling for MRI-EEG Connectivity Analysis
Arshia Rezaei - Bahareh Abbaszadeh
ارائه روشی جدید برای دستیابی به تعادل بار کاری پردازنده ها در محیط توزیع شده گرید محاسباتی با استفاده از الگوریتم ژنتیک
نجمه بلوردی - مریم حسینی گسمونی - فاطمه امامی پناه - مجده فخرآبادی
BiLSTM-Transformer: A Novel Hybrid Model for Accurate Prediction of Hand Joint Angles from sEMG Signals
Anita Sadat Sadati Rostami - Alireza Nazari - Mohammadreza Nayeri
مروری سیستماتیک بر کاربرد هوش مصنوعی در تشخیص تهدیدات سایبری در زنجیره تأمین رایانش ابری
اسماعیل قاسمی - شاهین سمیع عادل
Metal-Organic Frameworks: A Promising Class of Materials for Next-Generation Antibacterial Drug Delivery Systems
Shaghayegh Kohzadi - Zahra Mohammadi
تاثیر عدم تقارن اطلاعاتی بر ارتباط بین متنوع سازی شرکتی و مالی سازی شرکت
احمد محمدی - سعید سودی - سونیا کیوان بد
کاربرد علم داده در مهندسی کامپیوتر : بهینه سازی مصرف انرژی در دیتاسنترها در باب تحلیل داده
مهدی بشیرزاده
بیشتر
19 اردیبهشت 1405
راهنمای انتخاب کنفرانس معتبر برای چاپ مقاله علمی
19 اردیبهشت 1405
چرا شرکت در کنفرانسهای علمی برای مصاحبه دکتری اهمیت دارد؟
21 اردیبهشت 1405
پذیرش سریع مقاله در کنفرانسهای علمی مهندسی و فناوری آغاز شد
21 اردیبهشت 1405
آغاز ثبتنام در همایشهای بینالمللی مدیریت و حسابداری
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.9.0