معرفی چند دیتاست بینایی ماشین

دسته:پایگاه داده
هما کاشفی
07 تیر 1403

در این مقاله، لیستی جامع از دیتاست‌های با کیفیت بینایی ماشین را ارائه کرده‌ایم که می‌توانید به صورت رایگان به آنها دسترسی داشته باشید.

همگی این دیتاست‌ها Open-Source هستند و در مقالات متعدد این حوزه استفاده شده‌اند. با کلیک روی عنوان هر دیتاست وارد صفحه ی دیتاست می شوید.

1-COVID-19 X-Ray

این دیتاست متشکل از 6500 تصویر اشعه ایکس قفسه سینه AP/PA با segmentationهای در سطح پیکسل ریه است که در میان این تصاویر 517 نمونه‌ی کووید-19 وجود دارد.

هر تصویر شامل دو ماسک segmentation ریه است. برچسبی که نوع پنومونی (ویروسی، باکتریایی، قارچی، سالم/هیچکدام) را مشخص می‌کند. اگر بیمار مبتلا به کووید-19 باشد، برچسب‌های اضافی با ذکر سن، جنسیت، دما، مکان، وضعیت لوله گذاری، بستری شدن در بخش مراقبت‌های ویژه نیز وجود دارند. segmentation ریه به صورت چندضلعی انجام شده که دارای مرزهای سطح پیکسل است. می‌توانید آنها را در قالب‌های VOC, COCO یا Darwin JSON در اختیار داشته باشید.

2-CIFAR-10 و CIFAR-100

دو دیتاست CIFAR-10 و CIFAR-100 زیرمجموعه‌های برچسب گذاری شده از دیتاست 80 میلیون تصویر ریز است که توسط Alex Krizhevsky, Vinod Nair, Geoffrey Hinton برچسب گذاری شده‌اند.

CIFAR-10 شامل 60000 تصویر رنگی 32×32 با 10 کلاس (حیوانات و اشیاء واقعی) است. 6000 تصویر در هر کلاس وجود دارد. این مجموعه داده دارای 50000 تصویر آموزش و 10000 تصویر تست است. کلاس ها متقابلاً منحصر به فرد هستند، و هیچ گونه همپوشانی بین آنها وجود ندارد.

CIFAR-100 شامل 100 کلاس است که هر کدام شامل 600 تصویر است. 500 تصویر آموزشی و 100 تصویر تست در هر کلاس وجود دارد.

3-ImageNet

ImageNet یکی از محبوب ترین دیتاست تصویر با بیش از 14 میلیون تصویر است که به صورت دستی حاشیه نویسی شده‌اند. این مجموعه بر اساس سلسله مراتب WordNet مرتب سازی شده است که در آن صدها و هزاران تصویر از سلسله مراتب مشخص شده است. حاشیه‌نویسی ها به این صورت است که یک کادر محدود در اطراف هر شی ارائه شده است.

4-Kinetics-700

این یک دیتاست ویدیویی بزرگ است که شامل 650000 کلیپ است که 700 کلاس عمل انسانی را پوشش می دهد. این ویدیوها متشکل از تعامل انسان و شی مانند نواختن ساز و تعامل انسان و انسان مانند در آغوش گرفتن هستند. هر کلاس عمل دارای حداقل 700 کلیپ ویدیویی است و هر کلیپ حدود 10 ثانیه حاشیه نویسی شده است.

5-MNIST

این یک پایگاه داده بزرگ از تک رقمی های دست نویس است که شامل 60000 تصویر آموزشی و 10000 تصویر آزمایشی است. این مجموعه در سال 1999 منتشر شد و برای کارهای کلاسبندی استفاده می شود.

6-LSUN

LSUN (The Large-scale Scene Understanding) حاوی نزدیک به یک میلیون تصویر برچسب گذاری شده برای هر یک از 10 دسته صحنه و 20 دسته شی است. برای داده های آموزشی، هر دسته شامل 120000 تا حتی 300000000 تصویر است. داده‌های اعتبارسنجی شامل 300 تصویر است و داده‌های تست 1000 تصویر برای هر دسته است.

7-IMDB-WIKI

این دیتاست یکی از بزرگترین دیتاست‌های موجود از چهره‌های انسان به همراه جنسیت، سن و نام آنهاست. در مجموع شامل 523051 تصویر با 460723 تصویر چهره از 20284 چهره مشهور از IMDb و 62328 تصویر از ویکی پدیاست.

8-MS COCO

دیتاست MS COCO (Microsoft Common Objects in Context) متشکل از 328هزار تصویر است. این دیتاست شامل حاشیه نویسی‌هایی برای object detection, keypoints detection, panoptic segmentation, stuff image segmentation, captioning و Dense human pose estimation است.

9- Labeled Faces in the Wild

این یک پایگاه داده در مقیاس بزرگ از 13000 عکس چهره است که برای تسک‌های تشخیص چهره طراحی شده است. هر چهره با نام شخص برچسب گذاری شده است.

10-Cityscapes

Cityscapes یک پایگاه داده حاوی مجموعه متنوعی از سکانس‌های ویدئویی استریو است که در صحنه‌های خیابانی از 50 شهر مختلف ضبط شده‌اند. این تصاویر در طول زمان در شرایط نوری و آب و هوای مختلف ثبت شده اند. مجموعه داده‌های Cityscapes شامل حاشیه‌نویسی‌های معنایی، نمونه‌ای و پیکسلی برای 30 کلاس است که در 8 دسته گروه‌بندی شده‌اند.

11-LabelMe-12-50k

این دیتاست شامل 50000 تصویر JPEG (40000 برای آموزش و 10000 برای آزمایش) با 12 کلاس است. تصاویر از LabelMe استخراج شده اند.

کلاس ها شامل اشیایی مانند ماشین، شخص، درخت یا صفحه کلید است. 50٪ از تصاویر در مجموعه آموزشی و تست یک شی متمرکز را نشان می دهند، در حالی که 50٪ باقیمانده یک منطقه به طور تصادفی انتخاب شده (“بهم ریختگی”) را نشان می دهد. از این دیتاست می توان برای تشخیص اشیا استفاده کرد.

12-Places

دیتاست Places شامل 2.5 میلیون تصویر (با برچسب دسته) و 205 کلاس صحنه است. بیش از 5000 تصویر در هر کلاس وجود دارد. این دیتاست با استفاده از CNN آموزش داده شده است و می تواند برای کارهای تشخیص صحنه استفاده شود.

13-Places2 (365-Standard)

دیتاست دیگری که توسط MIT ارائه شده است. 1.8 میلیون تصویر از 365 کلاس صحنه وجود دارد. این دیتاست شامل 50 تصویر در هر کلاس در مجموعه اعتبار سنجی و 900 تصویر در مجموعه تست است. پایگاه داده Places2 می تواند برای تشخیص صحنه و ویژگی های عمومی صحنه عمیق برای تشخیص بصری استفاده شود.

14-VisualGenome

این یک دیتاست بزرگ و پایگاه دانش با 108077 تصویر با اشیاء، ویژگی ها و روابط آنها است.

15-Stanford Dogs

این دیتاست با استفاده از تصاویر و حاشیه نویسی (برچسب های کلاس، bounding box) از ImageNet ساخته شده است. این دیتاست در مقیاس بزرگ حاوی تصاویری از 120 نژاد سگ از سراسر جهان است. 20.580 تصویر و 120 کلاس در آن وجود دارد.

16-Cat Dataset

دیتاست CAT شامل بیش از 9000 تصویر گربه با ویژگی های صورت حاشیه نویسی شده است. حاشیه‌نویسی از سر گربه با ۹ نقطه برای هر تصویر وجود دارد: دو نقطه برای چشم، یکی برای دهان و شش نقطه برای گوش.

17-CelebFaces

دیتاست CelebFaces (CelebA) یک مجموعه داده ویژگی‌های چهره در مقیاس بزرگ با بیش از 200000 تصویر افراد مشهور است که هر کدام دارای 40 حاشیه‌نویسی ویژگی است. حاشیه نویسی شامل 10177 هویت منحصر به فرد و پنج مکان برجسته در هر تصویر است. از این دیتاست می‌توان برای تسک‌هایی چون face detection, face attribute recognition, localization, landmark (or facial part) localization استفاده کرد.

18-Face Mask Detection

این دیتاست شامل 853 تصویر متعلق به 3 کلاس و bounding boxهای آنها در قالب PASCAL VOC است. کلاس‌ها شامل «با ماسک»، «بدون ماسک» و « نادرست پوشیده شده» است. از این دیتاست در دوره‌ی جامع و پروژه محور کاربرد شبکه های عمیق در بینایی ماشین استفاده شده و با استفاده از شبکه Faster RCNN پیاده سازی شده است.