داستان گزارش سالانه دیتاک از کجا شروع شد؟
به این تصویر نگاه کنید؛ فکر میکنید این تصویر تار، چه منظرهای را نشان میدهد؟ آیا میتوانید با بزرگ کردن تصویر، حدس دقیقتری درباره چیستی آن بزنید؟ شاید آغاز مطلبی درباره یک گزارش دادهمحور با این تصاویر کمی عجیب و سوالبرانگیز باشد اما، این تمامِ مفهومی است که امید داریم به کمک این نوشته به شما منتقل کنیم.
در مصائب مواجهه با یک تصویر بیکیفیت از جامعه
از نظر ما، حکایت شیوههای سنتی پژوهش چیزی شبیه تصویر بالاست. گاهی نظرسنجیهای میدانی و تلفنی، مثل این تصویر تار، اجازه ریز شدن در مسائل و بررسی جزئیات را نمیدهند. پژوهشگر در این پژوهشها نمیتواند به راحتی در این نوع تحقیقات از لایهای به لایههای زیرین برود و مسائل را عمیقتر بررسی کند. این را بگذارید کنار سرعت بالای تحولات در دنیای امروز و از طرف دیگر، محتاطتر شدن آدمها در پاسخ دادن به نظرسنجیهای تلفنی و میدانی. آیا واقعا هنوز هم این نوع پژوهش به تنهایی کفاف بررسی همهجانبه مسائل امروز جامعه را میدهند؟!
رزولوشن بالای تصویر؛ کلید فهم رفتارهای اجتماعی
پژوهش با استفاده از کلانداده فضای مجازی محدودیتهای پژوهشهای میدانی و تلفنی را ندارد و میتواند مکمل و واضحکننده تصویری باشد که این پژوهشها از جامعه ارائه میدهند. شبکههای اجتماعی تصویری واقعی و باکیفیت از جامعه ارائه میدهند که قابلیت بزرگنمایی دارد. مطالعات و آزمونهای بسیاری ثابت کردهاند فعالیت مردم ایران در شبکههای اجتماعی، معرف افکار و رفتار بخش بزرگی از جامعه است. آدمها، در مقایسه با تحقیقات میدانی و تلفنی، در فضای مجازی آزادانهتر احساسات و افکارشان را ابراز میکنند و حتی اگر در مواردی جرات و جسارت پست و استوری گذاشتن و توییت کردن را نداشته باشند، زیر پست پیجهای بزرگ کامنت میگذارند و با اکانت توییتری بینام و نشان، نظرشان را توییت میکنند. این ردپاها میتوانند منشاء نسل تازهای از پژوهشهای علوم اجتماعی شوند که به آن «علوم اجتماعی محاسباتی» میگوییم.
«علوم اجتماعی محاسباتی»؛ انقلابی در مطالعه پدیدههای اجتماعی
«علوم اجتماعی محاسباتی» در واقع یک رویکرد بین رشتهای و فصل مشترک علوم کامپیوتر، آمار و علوم اجتماعی است. در این رویکرد از روشهای محاسباتی برای توضیح پدیدههای اجتماعی استفاده میشود. علوم اجتماعی محاسباتی، پایههای روش علمی را با کمک کلانداده و بررسی ردپای دیجیتالی که افراد با فعالیتهای آنلاین از خودشان به جا میگذارند دگرگون کرده است. از مزایای استفاده از علوم اجتماعی محاسباتی میتوان به اصالت، سرعت، جامعیت، فرازمانی بودن و سهولت آن اشاره کرد. البته این رویکرد هم معایب خاص خودش را دارد. مواردی چون فعالیتهای رباتگونه، عدم حضور برخی گروههای اجتماعی مثل سالمندان در فضای آنلاین و نابرابری در دسترسی به اینترنت به عنوان معایب این رویکرد بین رشتهای برشمرده میشوند، اما شاهد هستیم که با بالا رفتن ضریب نفوذ اینترنت در جوامع و پیشرفت تکنولوژی این معایب تا حد زیادی مرتفع شده یا قابل کنترل هستند.
به «کلانداده» ایمان بیاوریم!
متاسفانه، در فضای پژوهش سنتی، نوعی بدبینی نسبت به تحقیق با کلانداده شبکههای اجتماعی وجود دارد. از این نظر، ما هم همیشه در مظان اتهام بودهایم اما، جایی توانستیم ارزش کلانداده را ثابت کنیم که پیشبینیهایی که با کمک شبکههای اجتماعی کردیم درست از آب در آمد. مثلا، بر اساس نظرات مردم در فضای مجازی نه تنها نتایج انتخابات ریاست جمهوری، بلکه نرخ مشارکت را نیز درست پیشبینی کردیم (رجوع کنید به پست اینستاگرام دیتاک پیش از انتخابات 1400 و همچنین انتخابات ۹۶.). به علاوه، طی سالها نتایج مطالعه با کمک کلانداده شبکه اجتماعی توسط مشتریان ما با نتایج نظرسنجیهای سنتی مقایسه شده و نتیجه آن تایید شده است.
تلاشی برای رواج فرهنگ دادهمحوری
همانطور که میدانید دیتاک یک کسب و کار در حوزه رصد شبکههای اجتماعی است. اهداف و دغدغههای ویژه خودش را دارد که ارائه گزارش از رفتار کاربران ایرانی در شبکههای اجتماعی، حداقل به طور مستقیم جزو آنها نیست. با این تفاسیر، ممکن است این سوال در ذهن مخاطب پیش بیاید که چرا دو سال است که اینهمه وقت و انرژی میگذاریم و از حال و اوضاع فضای مجازی گزارش سالانه مینویسیم؟
داستان گزارش سالانه برمیگردد به یک خلاء عمیق؛ خلائی که در حوزه دیتا شناسایی کردهایم و از آن رنج بردهایم. طی سالها ارتباطمان با صاحبان کسب و کار و مسئولان نهادهای رسمی کشور شاهد بودهایم که علیرغم ابراز علاقه به این حوزه، “داده” برای اکثریت آنها شعاری زیبا اما، هندوانهای سربسته و جعبهسیاهی رمزآلود است. در واقع، ما در کمکاری نهادهای رسمی در ارائه داده و فقدان جدی تحلیلهای آماری قابل اتکا، خودمان را دستِ تنها و ناگزیر از پیشبرد «فرهنگ دادهمحوری» یافتیم. برای همین هم، هر سال گزارش سالانه دیتاک را منتشر میکنیم تا به نوبه خودمان کمکی کرده باشیم به رواج فرهنگ دادهمحوری و شفافیتی که به دنبال آن خواهد آمد و کشورمان، سخت نیازمند آن است.
که عشق آسان نمود اول و…
خیلیها فکر میکنند با وجود کلاندادهای که ما به واسطه حوزه فعالیتمان به آن دسترسی داریم، تحلیل و استخراج بینش (Insight) کار آسانی است. این افراد گمان میکنند ما همچون جادوگران دنیای دیجیتال فقط نیاز داریم وِردی بخوانیم و در یک چشم به هم زدن، همه چیز برایمان مهیا خواهد شد.
ممکن است شما هم مثل خیلی از مشتریان ما گمان کنید با چند کلیک ساده در سامانه دیتاک، میتوانید تمام اطلاعات و تحلیلهای مربوط به یک موضوع را استخراج کنید، اما آیا واقعا اینطور است؟ تجربه ما که اینطور نمیگوید. در واقع، چالشها از همان مرحله اول، یعنی جمعآوری داده آغاز میشوند؛ چالشهایی مثل سختگیری شبکههای اجتماعی در ارائه API تا درگیری بیپایان با انواع و اقسام رباتها و اکانتهای سازمانی که کار را برای جویندگان حقیقتِ مجازی دشوار میکنند.
مساله بعدی، کار با داده حاصل از شبکههای اجتماعی است که قلقهای خاص خودش را دارد. مثلا اینکه کدام محتوا در چه پلتفرمی برای تحقیق درباره چه موضوعی انتخاب شود و چگونه در آن به موضوع بپردازیم؟ یا اینکه اصلا آیا دیتایی که در رابطه با آن موضوع خاص تولید شده به سطحی رسیده که بتوان آن را «کلانداده» نامید و منبع پژوهش قرار داد؟ بگذارید یک مثال برایتان بزنیم؛ در فضایی مثل توییتر فارسی، «هشتگ» مبنای خوبی برای پروژه افکارسنجی نیست، چون بشدت میتواند تحت تاثیر فعالیت اکانتهای سازمانی قرار بگیرد (ما نیز در بخش توییتر این گزارش، آگاهانه سعی کردیم از تمرکز به هشتگها اجتناب کنیم.) یا در بسیاری موارد شاهد هستیم در تعریف و طراحی پژوهش، اشتباهات و سوءبرداشتهایی در مورد فضای مجازی وجود دارد. مثلا در طراحی برخی پژوهشهای رایج فضای مجازی پاسخ درستی به اینکه آیا در حال «افکارسنجی» هستیم یا «رسانهسنجی»؟ داده نمیشود و میتواند باعث مشکلات عدیده در روند پژوهش و نتایج آن باشد. برای مثال، کانالهای تلگرامی با تعداد اعضای بالا یا اکانتهای سازمانی توییتری نماینده افکار عمومی نیستند و رسانه محسوب میشوند.
همه اینها را بگذارید کنار کار با Big Data که خودش دریایی از پیچیدگی است و اصلا، معروف است که میگویند کلانداده جایی آغاز میشود که فرایندها و ابزار مرسوم کار با داده دیگر در آنجا جوابگو نیست.
تخصصهای مورد استفاده در تحلیل کلانداده شبکههای اجتماعی
کار با کلانداده شبکه اجتماعی پیشنیازهای زیادی دارد. استفاده از هوش مصنوعی، الگوریتمهای تشخیص کپی، جنسیت، احساسات، پردازش زبان طبیعی، یادگیری ماشین، دیپ لرنینگ، مدلهای زبانی و… تنها بخشی از تخصصهایی هستند که در این راه استفاده میشوند. با تعداد محدود داده و بدون بهره بردن از این تخصصها نمیتوان به نتایج قابل اعتنا از کلانداده شبکههای اجتماعی دست یافت. ما هم همه این تخصصها را کنار هم گذاشتیم تا گزارش سالانه دیتاک را تقدیمتان کنیم.
نکات مهم درباره گزارش سالانه 1402 دیتاک
همانطور که میدانید، این دومین سالی است که گزارش سالانه دیتاک را منتشر میکنیم (مشاهده گزارش 1401). علاوه بر تجربه هفتسالهمان در کار با کلانداده فضای مجازی، تجربه انتشار گزارش قبلی را هم به کار گرفتهایم تا بهترین و دقیقترین نتایج ممکن را پیشکش شما کنیم و تصویری جامع از زیستبوم دنیای مجازی ایرانی بسازیم. از شما خواهش میکنیم موارد زیر را هنگام خواندن گزارش در نظر داشته باشید:
- کلانداده گردآوریشده توسط سامانه دیتاک که شامل بیش از 2 میلیارد رکورد، از منابع مختلف در شبکههای اجتماعی و رسانههای آنلاین است، منبع اصلی تنظیم این گزارش بوده است. علاوه بر این، در مواردی از آمار منتشرشده توسط منابع رسمی و مراکز افکارسنجی و نظرسنجی معتبر نیز استفاده شده است.
- اگرچه کلانداده دیتاک، بخش بزرگی از مطالب منتشرشده توسط ایرانیان در شبکههای اجتماعی را در خود جای داده، شامل تمام محتوای ایرانی شبکههای اجتماعی نیست. در بعضی موارد، چون برآورد میزان بازدید ایرانیان در شبکههای اجتماعی با توجه به اینکه نسبت داده جمعآوری شده توسط سامانه دیتاک به کل محتوای ایرانی تولیدی ایرانیان را میدانیم، با در نظر گرفتن ملاحظات آماری به تعمیم دادن نتایج پرداختهایم.
- به منظور راستیآزمایی و اطمینان بیشتر، سعی کردیم تا در حد امکان از بیش از یک روش یا مسیر محاسباتی به اطلاعات ارائهشده در گزارش برسیم.
- در این گزارش تنها مطالب منتشرشده از سوی اکانتهای عمومی (Public) شبکههای اجتماعی مورد بررسی قرار گرفتهاند. هیچگونه اشارهای به نام افراد و حسابهای کاربری منفرد نشده و اساسا موضوع، هدف و طراحی مسیر گزارش به گونهای بوده که کوچکترین منافاتی با حفظ حریم خصوصی افراد نداشته باشد.
- به منظور جلوگیری از طولانی شدن گزارش، از پرداختن به جزئیات روشی، آماری و محاسبات پیچیده پرهیز کردهایم اما، در مواردی از روشها، منابع و سناریوهای متعدد استفاده کردهایم تا دقت گزارش را به حد قابل اعتمادی افزایش دهیم. به عنوان مثال در اینجا تنها به بخشی از منابع مورد استفاده برای تخمین گزارش «گردش مالی ایرانیان در شبکههای اجتماعی» اشاره میکنیم:
- اطلاعات و گزارشهای رسمی اقتصادی منتشرشده توسط مرکز آمار، بانک مرکزی و مراجع بینالمللی
- گزارشهای منتشرشده توسط فروشگاههای زنجیرهای و فروشگاههای آنلاین
- اطلاعات و گزارشهای رسمی منتشرشده از ترافیک مصرفی اینترنت، نسبت ترافیک داخلی به بینالملل و همچنین سهم پلتفرمهای پرمصرف از آن
- درآمد اپراتورها از محل فروش اینترنت در گزارشهای سالانه عمومی و گزارشهای منتشرشده بورسی
- آمارهای اعلامی توسط انجمنهای صنفی در حوزههای مرتبط
و در نهایت دادههای مختلف را براساس سناریوهای متفاوت با کلانداده دیتاک تطبیق دادیم تا اطلاعات کشفشده از ضریب اطمینان قابل قبولی برخوردار باشند.
- همچنین، برای جلوگیری از طولانی شدن گزارش، تصمیم گرفتیم پرداختن به برخی جزئیات و بررسی عمیقتر بعضی موضوعات را به گزارشهای آینده موکول کنیم. پس منتظر گزارشهای تکمیلی ما باشید.
- ضمن ارائه آمار مربوط به سال 1402، حتیالامکان نتایج را با آمار ارائهشده در گزارش 1401 دیتاک و همچنین، اطلاعاتی که به واسطه آرشیو کلانداده دیتاک از 17 سال حضور ایرانیان در فضای مجازی به آن دسترسی داریم، مقایسه کرده و به روند تغییرات آنها اشاره کردهایم.
با ذکر این توضیحات، از شما دعوت میکنیم گزارش سالانه دیتاک 1402 را مطالعه کنید.