دیتاست چیست؟
دیتاست همانگونه از نامش مشخص است به عنوان مجموعهای از دادهها تعریف میشود. سادهترین و رایجترین قالب برای دیتاستهایی که به صورت آنلاین پیدا خواهید کرد، یک صفحه گسترده یا قالب CSV است که به صورت جدول با ردیفها و ستونهای سازمان یافته است. اما برخی از مجموعههای داده در قالبهای دیگری ذخیره میشوند و لازم نیست فقط یک فایل باشند. گاهی اوقات یک دیتاست ممکن است یک فایل یا پوشه فشرده سازی شده باشد که شامل چندین جدول داده با دادههای مرتبط است.
دیتاستها چگونه ایجاد میشوند؟
دیتاستهای مختلف به روشهای مختلف ایجاد میشوند. برخی از آنها دادههای تولید شده توسط ماشین خواهند بود. برخی از آنها دادههایی هستند که از طریق نظرسنجیها جمع آوری شدهاند. برخی ممکن است دادههایی باشند که از مشاهدات انسانی ثبت شدهاند. برخی ممکن است دادههایی باشند که از وب سایتها و یا از طریق API ثبت شده باشند. هر زمان که با یک دیتاست کار میکنید، مهم است که در نظر بگیرید: این دیتاست چگونه ایجاد شده است؟ دادهها از کجا میآیند؟
سورسهای دیتاست
- Google Dataset Search: مشابه نحوه کارGoogle Scholar ، جستجوی دیتاست به شما امکان میدهد دیتاستها را در هر کجا که میزبانی میشوند، پیدا کنید؛ خواه سایت ناشران، کتابخانه دیجیتال یا صفحه وب نویسندگان باشد. این سورس یک دیتاست یاب خارق العاده است و شامل بیش از ۲۵ میلیون مجموعه داده است.
- Kaggle: این سورس مجموعه وسیعی از دیتاستها را برای افراد به صورت مناسب فراهم میکند.
- UCI Machine Learning Repository: این سورس منبعی به روز برای دیتاستهای منبع باز فراهم میکند.
- VisualData: این سورس دیتاستهای بینایی رایانه را بر اساس دسته بندی کشف میکند. این سورس کوئریها را جستجو میکند.
- CMU Libraries: به لطف مجموعهHuajin Wang ، درCMU ، دیتاستهایی با کیفیت بالا را میتوانید پیدا کنید.
- The Big Bad NLP Database: این لیست مجموعه جذاب شامل دیتاستهایی برای کارهای مختلف پردازش توسط Quantum Stat ایجاد و تنظیم شده است.
دیتاستهای عمومی
-
دیتاستهای مسکن
Boston Housing Dataset: شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در مناطق بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محک زدن الگوریتمها استفاده شده است.
-
دیتاستهای جغرافیایی
Google-Landmarks-v2: یک دیتاست بهبود یافته برای شناسایی و بازیابی نقطه عطف است. این دیتاست حاوی بیشا از ۵ میلیون متر مربع از بیش از ۲۰۰K تصاویر نشانه از نقاط مختلف جهان است که توسط انجمن Wiki Commons تهیه و شرح داده شده است.
دیتاستهای یادگیری ماشین:
- Mall Customers Dataset: دیتاستهای مشتریان مرکز خرید شامل اطلاعاتی درباره افرادی است که از یک مرکز تجاری در یک شهر خاص بازدید میکنند. این دیتاست از ستونهای مختلفی مانند جنسیت، شناسه مشتری، سن، درآمد سالانه و نمره هزینه تشکیل شده است. معمولاً برای تقسیم بندی مشتریان براساس سن، درآمد و علاقه آنها استفاده میشود.
- IRIS Dataset: دیتاست IRIS یک مجموعه داده ساده و مبتدی است که حاوی اطلاعاتی در مورد گلبرگ گل و عرض کاسبرگ است. دادهها به سه کلاس تقسیم میشوند که در هر کلاس ۵۰ ردیف دارند. به طور کلی برای طبقه بندی و مدل رگرسیون استفاده میشود.
- MNIST Dataset: این یک پایگاه داده از ارقام دست نویس است که شامل ۶۰۰۰۰ تصویر آموزشی و ۱۰۰۰۰ عکس آزمایشی است. این یک دیتاست کامل برای شروع اجرای طبقه بندی تصویر است که در آن میتوانید یک رقم از ۰ تا ۹ را طبقه بندی کنید.
- Boston Housing Dataset: شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در منطقه تودهای بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محاسبه الگوریتمها مورد استفاده قرار گرفته است.
- Fake News Detection Dataset: این مورد یک فایل CSV است که دارای ۷۷۹۶ ردیف با چهار ستون خبر، عنوان، متن خبر و نتیجه است.
- Wine quality dataset: دیتاست حاوی اطلاعات شیمیایی مختلفی درباره شراب است. این دیتاست برای کارهای طبقه بندی و رگرسیون مناسب است.
- SOCR data – Heights and Weights Dataset: این مورد یک دیتاست اساسی برای مبتدیان است که شامل فقط قد و وزن ۲۵۰۰۰ انسان مختلف در ۱۸ سالگی است. از این دیتاست میتوان برای ساخت مدلی استفاده کرد که بتواند قد یا وزن انسان را پیش بینی کند.
- Titanic Dataset: این دیتاست شامل اطلاعاتی مانند نام، سن، جنس، تعداد خواهر و برادران داخل هواپیما و سایر اطلاعات در مورد ۸۹۱ مسافر در مجموعه آموزش و ۴۱۸ مسافر در مجموعه آزمایش است.
- Credit Card Fraud Detection Dataset: این دیتاست شامل تراکنشهای انجام شده توسط کارتهای اعتباری است. آنها برچسب کلاهبرداری یا واقعی دارند. یا کمک این دیتاست برای شرکتهایی که سیستم معاملاتی دارند میتوان الگویی برای شناسایی فعالیتهای کلاهبرداری ایجاد کرد.
دیتاستهای بینایی رایانه
- xView: این دیتاست یکی از گستردهترین دیتاستهای تصاویر عمومی است که شامل تصاویری از صحنههای پیچیده در سرتاسر جهان است که با استفاده از جعبههای تفاسیر شرح داده شده است.
- ImageNet: بزرگترین دیتاست تصاویر برای دید کامپیوتر است. به گفته WordNet، این یک پایگاه داده تصویری قابل دسترسی است که به صورت سلسله مراتبی سازمان یافته است.
- Kinetics-700: دیتاستی در مقیاس بزرگ از URL های ویدیویی از Youtube است که شامل بیش از ۷۰۰۰۰۰ فیلم میباشد.
- Google’s Open Images: دیتاست گستردهای از Google AI شامل بیش از ۱۰ میلیون تصویر میباشد.
- Cityscapes Dataset: یک دیتاست منبع باز برای پروژههای کامپیوتری است که حاوی تفاسیر با کیفیت بالا در سطح پیکسل از توالیهای ویدئویی است که در ۵۰ خیابان مختلف شهر گرفته شده است. این دیتاست در تقسیم بندی معنایی و آموزش شبکههای عصبی عمیق برای درک صحنه شهری مفید است.
- IMDB-Wiki Dataset: دیتاست IMDB-Wiki یکی از گستردهترین دیتاستهای منبع باز برای تصاویر چهره با برچسب جنسیت و سن است که از IMDB و ویکی پدیا جمع آوری شده است. این عکس دارای پنج میلیون تصویر دارای برچسب است.
- Color Detection Dataset: این دیتاست حاوی یک فایل CSV است که دارای ۸۶۵ نام رنگ با مقادیر RGB (قرمز، سبز و آبی) مربوط به رنگ است. همچنین دارای ارزش هگزادسیمال رنگ است.
- Stanford Dogs Dataset: شامل ۲۰۵۸۰ تصویر و ۱۲۰ دسته مختلف نژاد سگ است.
دیتاستهای تجزیه و تحلیل احساسات
- Lexicoder Sentiment Dictionary: این دیتاست به طور ویژه برای تجزیه و تحلیل احساسات استفاده میشود. این دیتاست شامل بیش از ۳۰۰۰ کلمه احساسی منفی و بیش از ۲۰۰۰ کلمه احساسی مثبت است.
- IMDB reviews: یک دیتاست جالب با بیش از ۵۰۰۰۰ بررسی فیلم از Kaggle است.
- Stanbank Sentiment Treebank: مجموعه داده احساسات استاندارد با تفسیر احساسات است.
- Twitter Airline Sentiment: دادههای توییتر درباره خطوط هوایی ایالات متحده از فوریه ۲۰۱۵، به عنوان توییتهای مثبت، منفی و خنثی طبقه بندی میشوند.
دیتاستهای بالینی
MaskedFace-Net: این دیتاست یک مجموعه داده واقعی است که شامل چهرههای انسانی با ماسکهای صحیح و نادرست پوشیده شده است. این دیتاست شامل بیش از ۱۳۷ هزار تصویر است که براساس مجموعه دادههای Flick-Faces-HQ تهیه شدهاند.
COVID-19 Dataset: موسسه تحقیقات آلن در حوزه هوش مصنوعی دیتاستهای گستردهای از تحقیقات بیش از ۴۵۰۰۰ مقاله علمی درباره COVID-19 را منتشر کرده است.
MIMIC-III: دیتاستی که به طور آشکار در دسترس است و توسط آزمایشگاه MIT برای فیزیولوژی محاسباتی تهیه شده است. این دیتاست شامل دادههای بهداشتی غیرقابل شناسایی مرتبط با تقریبا ۴۰۰۰۰ بیماران مراقبتهای ویژه است که شامل اطلاعات جمعیتی، علائم حیاتی، آزمایشات آزمایشگاهی، داروها و موارد دیگر است.