صفحه اصلی > داده کاوی و دیتاست : بهترین دیتاست برای داده کاوی

بهترین دیتاست برای داده کاوی

بهترین دیتاست برای داده کاوی

دیتاست چیست؟

دیتاست همانگونه از نامش مشخص است به عنوان مجموعه‌ای از داده‌ها تعریف می‌شود. ساده‌ترین و رایج‌ترین قالب برای دیتاست‌هایی که به صورت آنلاین پیدا خواهید کرد، یک صفحه گسترده یا قالب CSV است که به صورت جدول با ردیف‌ها و ستون‌های سازمان یافته است. اما برخی از مجموعه‌های داده در قالب‌های دیگری ذخیره می‌شوند و لازم نیست فقط یک فایل باشند. گاهی اوقات یک دیتاست ممکن است یک فایل یا پوشه فشرده سازی شده باشد که شامل چندین جدول داده با داده‌های مرتبط است.

دیتاست‌ها چگونه ایجاد می‌شوند؟

دیتاست‌های مختلف به روش‌های مختلف ایجاد می‌شوند. برخی از آنها داده‌های تولید شده توسط ماشین خواهند بود. برخی از آنها داده‌هایی هستند که از طریق نظرسنجی‌ها جمع آوری شده‌اند. برخی ممکن است داده‌هایی باشند که از مشاهدات انسانی ثبت شده‌اند. برخی ممکن است داده‌هایی باشند که از وب سایت‌ها و یا از طریق API ثبت شده باشند. هر زمان که با یک دیتاست کار می‌کنید، مهم است که در نظر بگیرید: این دیتاست چگونه ایجاد شده است؟ داده‌ها از کجا می‌آیند؟

سورس‌های دیتاست

  • Google Dataset Search: مشابه نحوه کارGoogle Scholar ، جستجوی دیتاست به شما امکان می‌دهد دیتاست‌ها را در هر کجا که میزبانی می‌شوند، پیدا کنید؛ خواه سایت ناشران، کتابخانه دیجیتال یا صفحه وب نویسندگان باشد. این سورس یک دیتاست یاب خارق العاده است و شامل بیش از ۲۵ میلیون مجموعه داده است.
  • Kaggle: این سورس مجموعه وسیعی از دیتاست‌ها را برای افراد به صورت مناسب فراهم می‌کند.
  • UCI Machine Learning Repository: این سورس منبعی به روز برای دیتاست‌های منبع باز فراهم می‌کند.
  • VisualData: این سورس دیتاست‌های بینایی رایانه را بر اساس دسته بندی کشف می‌کند. این سورس کوئری‌ها را جستجو می‌کند.
  • CMU Libraries: به لطف مجموعهHuajin Wang ، درCMU ، دیتاست‌هایی با کیفیت بالا را می‌توانید پیدا کنید.
  • The Big Bad NLP Database: این لیست مجموعه جذاب شامل دیتاست‌هایی برای کارهای مختلف پردازش توسط Quantum Stat ایجاد و تنظیم شده است.

دیتاست‌های عمومی

  • دیتاست‌های مسکن

Boston Housing Dataset: شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در مناطق بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محک زدن الگوریتم‌ها استفاده شده است.

  • دیتاست‌های جغرافیایی

Google-Landmarks-v2: یک دیتاست بهبود یافته برای شناسایی و بازیابی نقطه عطف است. این دیتاست حاوی بیشا از ۵ میلیون متر مربع از بیش از ۲۰۰K تصاویر نشانه از نقاط مختلف جهان است که توسط انجمن Wiki Commons تهیه و شرح داده شده است.

دیتاست‌های یادگیری ماشین:

  • Mall Customers Dataset: دیتاست‌های مشتریان مرکز خرید شامل اطلاعاتی درباره افرادی است که از یک مرکز تجاری در یک شهر خاص بازدید می‌کنند. این دیتاست از ستون‌های مختلفی مانند جنسیت، شناسه مشتری، سن، درآمد سالانه و نمره هزینه تشکیل شده است. معمولاً برای تقسیم بندی مشتریان براساس سن، درآمد و علاقه آن‌ها استفاده می‌شود.
  • IRIS Dataset: دیتاست IRIS یک مجموعه داده ساده و مبتدی است که حاوی اطلاعاتی در مورد گلبرگ گل و عرض کاسبرگ است. داده‌ها به سه کلاس تقسیم می‌شوند که در هر کلاس ۵۰ ردیف دارند. به طور کلی برای طبقه بندی و مدل رگرسیون استفاده می‌شود.
  • MNIST Dataset: این یک پایگاه داده از ارقام دست نویس است که شامل ۶۰۰۰۰ تصویر آموزشی و ۱۰۰۰۰ عکس آزمایشی است. این یک دیتاست کامل برای شروع اجرای طبقه بندی تصویر است که در آن می‌توانید یک رقم از ۰ تا ۹ را طبقه بندی کنید.
  • Boston Housing Dataset: شامل اطلاعات جمع آوری شده توسط سرویس سرشماری ایالات متحده در مورد مسکن در منطقه توده‌ای بوستون است که از بایگانی StatLib به دست آمده و به طور گسترده برای محاسبه الگوریتم‌ها مورد استفاده قرار گرفته است.
  • Fake News Detection Dataset: این مورد یک فایل CSV است که دارای ۷۷۹۶ ردیف با چهار ستون خبر، عنوان، متن خبر و نتیجه است.
  • Wine quality dataset: دیتاست حاوی اطلاعات شیمیایی مختلفی درباره شراب است. این دیتاست برای کارهای طبقه بندی و رگرسیون مناسب است.
  • SOCR data – Heights and Weights Dataset: این مورد یک دیتاست اساسی برای مبتدیان است که شامل فقط قد و وزن ۲۵۰۰۰ انسان مختلف در ۱۸ سالگی است. از این دیتاست می‌توان برای ساخت مدلی استفاده کرد که بتواند قد یا وزن انسان را پیش بینی کند.
  • Titanic Dataset: این دیتاست شامل اطلاعاتی مانند نام، سن، جنس، تعداد خواهر و برادران داخل هواپیما و سایر اطلاعات در مورد ۸۹۱ مسافر در مجموعه آموزش و ۴۱۸ مسافر در مجموعه آزمایش است.
  • Credit Card Fraud Detection Dataset: این دیتاست شامل تراکنش‌های انجام شده توسط کارت‌های اعتباری است. آنها برچسب کلاهبرداری یا واقعی دارند. یا کمک این دیتاست برای شرکت‌هایی که سیستم معاملاتی دارند میتوان الگویی برای شناسایی فعالیت‌های کلاهبرداری ایجاد کرد.

دیتاست‌های بینایی رایانه

  • xView: این دیتاست یکی از گسترده‌ترین دیتاست‌های تصاویر عمومی است که شامل تصاویری از صحنه‌های پیچیده در سرتاسر جهان است که با استفاده از جعبه‌های تفاسیر شرح داده شده است.
  • ImageNet: بزرگترین دیتاست تصاویر برای دید کامپیوتر است. به گفته WordNet، این یک پایگاه داده تصویری قابل دسترسی است که به صورت سلسله مراتبی سازمان یافته است.
  • Kinetics-700: دیتاستی در مقیاس بزرگ از URL های ویدیویی از Youtube است که شامل بیش از ۷۰۰۰۰۰ فیلم می‌باشد.
  • Google’s Open Images: دیتاست گسترده‌ای از Google AI شامل بیش از ۱۰ میلیون تصویر می‌باشد.
  • Cityscapes Dataset: یک دیتاست منبع باز برای پروژه‌های کامپیوتری است که حاوی تفاسیر با کیفیت بالا در سطح پیکسل از توالی‌های ویدئویی است که در ۵۰ خیابان مختلف شهر گرفته شده است. این دیتاست در تقسیم بندی معنایی و آموزش شبکه‌های عصبی عمیق برای درک صحنه شهری مفید است.
  • IMDB-Wiki Dataset: دیتاست IMDB-Wiki یکی از گسترده‌ترین دیتاست‌های منبع باز برای تصاویر چهره با برچسب جنسیت و سن است که از IMDB و ویکی پدیا جمع آوری شده است. این عکس دارای پنج میلیون تصویر دارای برچسب است.
  • Color Detection Dataset: این دیتاست حاوی یک فایل CSV است که دارای ۸۶۵ نام رنگ با مقادیر RGB (قرمز، سبز و آبی) مربوط به رنگ است. همچنین دارای ارزش هگزادسیمال رنگ است.
  • Stanford Dogs Dataset: شامل ۲۰۵۸۰ تصویر و ۱۲۰ دسته مختلف نژاد سگ است.

دیتاست‌های تجزیه و تحلیل احساسات

  • Lexicoder Sentiment Dictionary: این دیتاست به طور ویژه برای تجزیه و تحلیل احساسات استفاده می‌شود. این دیتاست شامل بیش از ۳۰۰۰ کلمه احساسی منفی و بیش از ۲۰۰۰ کلمه احساسی مثبت است.
  • IMDB reviews: یک دیتاست جالب با بیش از ۵۰۰۰۰ بررسی فیلم از Kaggle است.
  • Stanbank Sentiment Treebank: مجموعه داده احساسات استاندارد با تفسیر احساسات است.
  • Twitter Airline Sentiment: داده‌های توییتر درباره خطوط هوایی ایالات متحده از فوریه ۲۰۱۵، به عنوان توییت‌های مثبت، منفی و خنثی طبقه بندی می‌شوند.

دیتاست‌های بالینی

MaskedFace-Net: این دیتاست یک مجموعه داده واقعی است که شامل چهره‌های انسانی با ماسک‌های صحیح و نادرست پوشیده شده است. این دیتاست شامل بیش از ۱۳۷ هزار تصویر است که براساس مجموعه داده‌های Flick-Faces-HQ تهیه شده‌اند.

COVID-19 Dataset: موسسه تحقیقات آلن در حوزه هوش مصنوعی دیتاست‌های گسترده‌ای از تحقیقات بیش از ۴۵۰۰۰ مقاله علمی درباره COVID-19 را منتشر کرده است.

MIMIC-III: دیتاستی که به طور آشکار در دسترس است و توسط آزمایشگاه MIT برای فیزیولوژی محاسباتی تهیه شده است. این دیتاست شامل داده‌های بهداشتی غیرقابل شناسایی مرتبط با تقریبا ۴۰۰۰۰ بیماران مراقبت‌های ویژه است که شامل اطلاعات جمعیتی، علائم حیاتی، آزمایشات آزمایشگاهی، داروها و موارد دیگر است.

من پانتـه‌آ پایـدار کارشناس ارشد مهندسی آی تی در گرایش کسب و کار الکترونیکی هستم. علاقمند به هر فناوری و تکنیک جدیدی در حوزه آی‌تی و هر چه به این حوزه کمک می‌کند. به تحقیق و پژوهش و تولید محتوا در زمینه دنیای دیجیتال و آی تی مشغولم.
مقالات مرتبط

گزارش دیتاک از صنعت لوازم خانگی در ایران

کلان‌داده شبکه اجتماعی درباره نگرش ایرانیان به برندهای لوازم خانگی ایرانی و…

واکاوی نگرش ایرانیان به اتباع افغان بر اساس داده‌کاوی شبکه‌های اجتماعی (افکارسنجی و رسانه‌سنجی)

موضوع حضور مهاجران یا اتباع افغان در ایران در یکی دو سال گذشته تبدیل به یک بحران اجتماعی شده و بخش بزرگی از جامعه ایران و مهاجران را درگیر خود کرده است.

دیدگاهتان را بنویسید