معرفی چند دیتاست بینایی ماشین
- دسته:پایگاه داده
- هما کاشفی
در این مقاله، لیستی جامع از دیتاستهای با کیفیت بینایی ماشین را ارائه کردهایم که میتوانید به صورت رایگان به آنها دسترسی داشته باشید.
همگی این دیتاستها Open-Source هستند و در مقالات متعدد این حوزه استفاده شدهاند. با کلیک روی عنوان هر دیتاست وارد صفحه ی دیتاست می شوید.
1-COVID-19 X-Ray
این دیتاست متشکل از 6500 تصویر اشعه ایکس قفسه سینه AP/PA با segmentationهای در سطح پیکسل ریه است که در میان این تصاویر 517 نمونهی کووید-19 وجود دارد.
هر تصویر شامل دو ماسک segmentation ریه است. برچسبی که نوع پنومونی (ویروسی، باکتریایی، قارچی، سالم/هیچکدام) را مشخص میکند. اگر بیمار مبتلا به کووید-19 باشد، برچسبهای اضافی با ذکر سن، جنسیت، دما، مکان، وضعیت لوله گذاری، بستری شدن در بخش مراقبتهای ویژه نیز وجود دارند. segmentation ریه به صورت چندضلعی انجام شده که دارای مرزهای سطح پیکسل است. میتوانید آنها را در قالبهای VOC, COCO یا Darwin JSON در اختیار داشته باشید.
2-CIFAR-10 و CIFAR-100
دو دیتاست CIFAR-10 و CIFAR-100 زیرمجموعههای برچسب گذاری شده از دیتاست 80 میلیون تصویر ریز است که توسط Alex Krizhevsky, Vinod Nair, Geoffrey Hinton برچسب گذاری شدهاند.
CIFAR-10 شامل 60000 تصویر رنگی 32×32 با 10 کلاس (حیوانات و اشیاء واقعی) است. 6000 تصویر در هر کلاس وجود دارد. این مجموعه داده دارای 50000 تصویر آموزش و 10000 تصویر تست است. کلاس ها متقابلاً منحصر به فرد هستند، و هیچ گونه همپوشانی بین آنها وجود ندارد.
CIFAR-100 شامل 100 کلاس است که هر کدام شامل 600 تصویر است. 500 تصویر آموزشی و 100 تصویر تست در هر کلاس وجود دارد.
3-ImageNet
ImageNet یکی از محبوب ترین دیتاست تصویر با بیش از 14 میلیون تصویر است که به صورت دستی حاشیه نویسی شدهاند. این مجموعه بر اساس سلسله مراتب WordNet مرتب سازی شده است که در آن صدها و هزاران تصویر از سلسله مراتب مشخص شده است. حاشیهنویسی ها به این صورت است که یک کادر محدود در اطراف هر شی ارائه شده است.
4-Kinetics-700
این یک دیتاست ویدیویی بزرگ است که شامل 650000 کلیپ است که 700 کلاس عمل انسانی را پوشش می دهد. این ویدیوها متشکل از تعامل انسان و شی مانند نواختن ساز و تعامل انسان و انسان مانند در آغوش گرفتن هستند. هر کلاس عمل دارای حداقل 700 کلیپ ویدیویی است و هر کلیپ حدود 10 ثانیه حاشیه نویسی شده است.
5-MNIST
این یک پایگاه داده بزرگ از تک رقمی های دست نویس است که شامل 60000 تصویر آموزشی و 10000 تصویر آزمایشی است. این مجموعه در سال 1999 منتشر شد و برای کارهای کلاسبندی استفاده می شود.
6-LSUN
LSUN (The Large-scale Scene Understanding) حاوی نزدیک به یک میلیون تصویر برچسب گذاری شده برای هر یک از 10 دسته صحنه و 20 دسته شی است. برای داده های آموزشی، هر دسته شامل 120000 تا حتی 300000000 تصویر است. دادههای اعتبارسنجی شامل 300 تصویر است و دادههای تست 1000 تصویر برای هر دسته است.
7-IMDB-WIKI
این دیتاست یکی از بزرگترین دیتاستهای موجود از چهرههای انسان به همراه جنسیت، سن و نام آنهاست. در مجموع شامل 523051 تصویر با 460723 تصویر چهره از 20284 چهره مشهور از IMDb و 62328 تصویر از ویکی پدیاست.
8-MS COCO
دیتاست MS COCO (Microsoft Common Objects in Context) متشکل از 328هزار تصویر است. این دیتاست شامل حاشیه نویسیهایی برای object detection, keypoints detection, panoptic segmentation, stuff image segmentation, captioning و Dense human pose estimation است.
9- Labeled Faces in the Wild
این یک پایگاه داده در مقیاس بزرگ از 13000 عکس چهره است که برای تسکهای تشخیص چهره طراحی شده است. هر چهره با نام شخص برچسب گذاری شده است.
10-Cityscapes
Cityscapes یک پایگاه داده حاوی مجموعه متنوعی از سکانسهای ویدئویی استریو است که در صحنههای خیابانی از 50 شهر مختلف ضبط شدهاند. این تصاویر در طول زمان در شرایط نوری و آب و هوای مختلف ثبت شده اند. مجموعه دادههای Cityscapes شامل حاشیهنویسیهای معنایی، نمونهای و پیکسلی برای 30 کلاس است که در 8 دسته گروهبندی شدهاند.
11-LabelMe-12-50k
این دیتاست شامل 50000 تصویر JPEG (40000 برای آموزش و 10000 برای آزمایش) با 12 کلاس است. تصاویر از LabelMe استخراج شده اند.
کلاس ها شامل اشیایی مانند ماشین، شخص، درخت یا صفحه کلید است. 50٪ از تصاویر در مجموعه آموزشی و تست یک شی متمرکز را نشان می دهند، در حالی که 50٪ باقیمانده یک منطقه به طور تصادفی انتخاب شده (“بهم ریختگی”) را نشان می دهد. از این دیتاست می توان برای تشخیص اشیا استفاده کرد.
12-Places
دیتاست Places شامل 2.5 میلیون تصویر (با برچسب دسته) و 205 کلاس صحنه است. بیش از 5000 تصویر در هر کلاس وجود دارد. این دیتاست با استفاده از CNN آموزش داده شده است و می تواند برای کارهای تشخیص صحنه استفاده شود.
13-Places2 (365-Standard)
دیتاست دیگری که توسط MIT ارائه شده است. 1.8 میلیون تصویر از 365 کلاس صحنه وجود دارد. این دیتاست شامل 50 تصویر در هر کلاس در مجموعه اعتبار سنجی و 900 تصویر در مجموعه تست است. پایگاه داده Places2 می تواند برای تشخیص صحنه و ویژگی های عمومی صحنه عمیق برای تشخیص بصری استفاده شود.
14-VisualGenome
این یک دیتاست بزرگ و پایگاه دانش با 108077 تصویر با اشیاء، ویژگی ها و روابط آنها است.
15-Stanford Dogs
این دیتاست با استفاده از تصاویر و حاشیه نویسی (برچسب های کلاس، bounding box) از ImageNet ساخته شده است. این دیتاست در مقیاس بزرگ حاوی تصاویری از 120 نژاد سگ از سراسر جهان است. 20.580 تصویر و 120 کلاس در آن وجود دارد.
16-Cat Dataset
دیتاست CAT شامل بیش از 9000 تصویر گربه با ویژگی های صورت حاشیه نویسی شده است. حاشیهنویسی از سر گربه با ۹ نقطه برای هر تصویر وجود دارد: دو نقطه برای چشم، یکی برای دهان و شش نقطه برای گوش.
17-CelebFaces
دیتاست CelebFaces (CelebA) یک مجموعه داده ویژگیهای چهره در مقیاس بزرگ با بیش از 200000 تصویر افراد مشهور است که هر کدام دارای 40 حاشیهنویسی ویژگی است. حاشیه نویسی شامل 10177 هویت منحصر به فرد و پنج مکان برجسته در هر تصویر است. از این دیتاست میتوان برای تسکهایی چون face detection, face attribute recognition, localization, landmark (or facial part) localization استفاده کرد.
18-Face Mask Detection
این دیتاست شامل 853 تصویر متعلق به 3 کلاس و bounding boxهای آنها در قالب PASCAL VOC است. کلاسها شامل «با ماسک»، «بدون ماسک» و « نادرست پوشیده شده» است. از این دیتاست در دورهی جامع و پروژه محور کاربرد شبکه های عمیق در بینایی ماشین استفاده شده و با استفاده از شبکه Faster RCNN پیاده سازی شده است.
دیدگاه ها