چکیده
رشد سریع اطلاعات در دنیای دیجیتال به ویژه بر روی وب، خواستار روش های خودکار سازماندهی اطلاعات دیجیتال برای دسترسی راحت و بازیابی کارآمد اطلاعات است. مدل سازی موضوع شاخه ای از یادگیری ماشین و مدل سازی گرافیکی احتمالاتی است که در تنظیم صفحات وب با توجه به ساختار موضعی خود کمک می کند. توزیع یک موضوع روی مجموعه ای از اسناد (صفحات وب) و وابستگی(نزدیکی) یک سند به یک موضوع خاص می تواند با استفاده از مدلسازی موضوع نشان داده شود. الگوریتم های مدل سازی موضوع معمولا به دلیل ماهیت تکرار شوندگیشان به طور محاسباتی گران هستند. اخیرا تلاش های تحقیقاتی سعی کرده اند تا مدل موضوع خاص را موازی کنند و در تلاش های خود موفق هستند. این الگوریتم های موازی با این حال دارای فرآیندهای موازی به هم چسبیده هستند که نیاز به هماهنگ سازی مکرر دارد و همچنین با مدل موضوع زیربنایی که برای استنباط سلسله مراتب موضوع استفاده می شود گره خورده است. در این مقاله، ما یک الگوریتم موازی برای پی بردن به سلسله مراتب موضوع از یک مجموعه سند مقیاس بزرگ پیشنهاد می کنیم. قابلیت های کلیدی الگوریتم پیشنهادی این است که موازی سازی دانه درشت را بهره برداری می کند و اجزای در حال اجرا به صورت موازی باید پس از هر تکرار نیازی به همگام سازی نداشته باشد،
کلمات کلیدی: خوشه بندی، پردازش موازی، مجموعه اسناد، الگوریتم موازی
مقدمه
مدل ها و الگوریتم خودکار برای رویارویی با مقیاس شبکه جهانی وب مورد نیاز هستند، به طوری که اسناد در وب می تواند به طور خودکار با توجه به معانی اساسی خود سازمان دهی شود و هر جستجو برای اطلاعات، که می تواند به موثر تسهیل شود.