داستان گزارش سالانه دیتاک از کجا شروع شد؟

به این تصویر نگاه کنید؛ فکر می‌کنید این تصویر تار، چه منظره‌ای را نشان می‌دهد؟ آیا می‌توانید با بزرگ کردن تصویر، حدس دقیق‌تری درباره چیستی آن بزنید؟ شاید آغاز مطلبی درباره یک گزارش داده‌محور با این تصاویر کمی عجیب و سوال‌برانگیز باشد اما، این تمامِ مفهومی است که امید داریم به کمک این نوشته به شما منتقل کنیم.

در مصائب مواجهه با یک تصویر بی‌کیفیت از جامعه

از نظر ما، حکایت شیوه‌های سنتی پژوهش چیزی شبیه تصویر بالاست. گاهی نظرسنجی‌های میدانی و تلفنی، مثل این تصویر تار، اجازه ریز شدن در مسائل و بررسی جزئیات را نمی‌دهند. پژوهشگر در این پژوهش‌ها نمی‌تواند به راحتی در این نوع تحقیقات از لایه‌ای به لایه‌های زیرین برود و مسائل را عمیق‌تر بررسی کند. این را بگذارید کنار سرعت بالای تحولات در دنیای امروز و از طرف دیگر، محتاط‌تر شدن آدم‌ها در پاسخ دادن به نظرسنجی‌های تلفنی و میدانی. آیا واقعا هنوز هم این نوع پژوهش به تنهایی کفاف بررسی همه‌جانبه مسائل امروز جامعه را می‌دهند؟!

رزولوشن بالای تصویر؛ کلید فهم رفتارهای اجتماعی

پژوهش با استفاده از کلان‌داده فضای مجازی محدودیت‌های پژوهش‌های میدانی و تلفنی را ندارد و می‌تواند مکمل و واضح‌کننده تصویری باشد که این پژوهش‌ها از جامعه ارائه می‌دهند. شبکه‌های اجتماعی تصویری واقعی و باکیفیت از جامعه ارائه می‌دهند که قابلیت بزرگنمایی دارد. مطالعات و آزمون‌های بسیاری ثابت کرده‌اند فعالیت مردم ایران در شبکه‌های اجتماعی، معرف افکار و رفتار بخش بزرگی از جامعه است. آدم‌ها، در مقایسه با تحقیقات میدانی و تلفنی، در فضای مجازی آزادانه‌تر احساسات و افکارشان را ابراز می‌کنند و حتی اگر در مواردی جرات و جسارت پست و استوری گذاشتن و توییت کردن را نداشته باشند، زیر پست پیج‌های بزرگ کامنت می‌گذارند و با اکانت توییتری بی‌نام و نشان، نظرشان را توییت می‌کنند. این ردپاها می‌توانند منشاء نسل تازه‌ای از پژوهش‌های علوم اجتماعی شوند که به آن «علوم اجتماعی محاسباتی» می‌گوییم.

«علوم اجتماعی محاسباتی»؛ انقلابی در مطالعه پدیده‌های اجتماعی

«علوم اجتماعی محاسباتی» در واقع یک رویکرد بین رشته‌ای و فصل مشترک علوم کامپیوتر، آمار و علوم اجتماعی است. در این رویکرد از روش‌های محاسباتی برای توضیح پدیده‌های اجتماعی استفاده می‌شود. علوم اجتماعی محاسباتی، پایه‌های روش علمی را با کمک کلان‌داده و بررسی ردپای دیجیتالی که افراد با فعالیت‌های آنلاین از خودشان به جا می‌گذارند دگرگون کرده است. از مزایای استفاده از علوم اجتماعی محاسباتی می‌توان به اصالت، سرعت، جامعیت، فرازمانی بودن و سهولت آن اشاره کرد. البته این رویکرد هم معایب خاص خودش را دارد. مواردی چون فعالیت‌‎های ربات‌گونه، عدم حضور برخی گروه‌های اجتماعی مثل سالمندان در فضای آنلاین و نابرابری در دسترسی به اینترنت به عنوان معایب این رویکرد بین رشته‌ای برشمرده می‌شوند، اما شاهد هستیم که با بالا رفتن ضریب نفوذ اینترنت در جوامع و پیشرفت تکنولوژی این معایب تا حد زیادی مرتفع شده یا قابل کنترل هستند.

به «کلان‌داده» ایمان بیاوریم!

متاسفانه، در فضای پژوهش سنتی، نوعی بدبینی نسبت به تحقیق با کلان‌داده شبکه‌های اجتماعی وجود دارد. از این نظر، ما هم همیشه در مظان اتهام بوده‌ایم اما، جایی توانستیم ارزش کلان‌داده را ثابت کنیم که پیش‌بینی‌هایی که با کمک شبکه‌های اجتماعی کردیم درست از آب در آمد. مثلا، بر اساس نظرات مردم در فضای مجازی نه تنها نتایج انتخابات ریاست جمهوری، بلکه نرخ مشارکت را نیز درست پیش‌بینی کردیم (رجوع کنید به پست اینستاگرام دیتاک پیش از انتخابات 1400 و همچنین انتخابات ۹۶.). به علاوه، طی سال‌ها نتایج مطالعه با کمک کلان‌داده شبکه اجتماعی توسط مشتریان ما با نتایج نظرسنجی‌های سنتی مقایسه شده و نتیجه آن تایید شده است.

تلاشی برای رواج فرهنگ داده‌محوری

همانطور که می‌دانید دیتاک یک کسب و کار در حوزه رصد شبکه‌های اجتماعی است. اهداف و دغدغه‌های ویژه خودش را دارد که ارائه گزارش از رفتار کاربران ایرانی در شبکه‌های اجتماعی، حداقل به طور مستقیم جزو آنها نیست. با این تفاسیر، ممکن است این سوال در ذهن مخاطب پیش بیاید که چرا دو سال است که اینهمه وقت و انرژی می‌گذاریم و از حال و اوضاع فضای مجازی گزارش سالانه می‌نویسیم؟

 داستان گزارش سالانه برمی‌گردد به یک خلاء عمیق؛ خلائی که در حوزه دیتا شناسایی کرده‌ایم و از آن رنج برده‌ایم. طی سال‌ها ارتباطمان با صاحبان کسب و کار و مسئولان نهادهای رسمی کشور شاهد بوده‌ایم که علیرغم ابراز علاقه به این حوزه، “داده” برای اکثریت آنها شعاری زیبا اما، هندوانه‌ای سربسته و جعبه‌سیاهی رمزآلود است. در واقع، ما در کم‌کاری نهادهای رسمی در ارائه داده و فقدان جدی تحلیل‌های آماری قابل اتکا، خودمان را دستِ تنها و ناگزیر از پیشبرد «فرهنگ داده‌محوری» یافتیم. برای همین هم، هر سال گزارش سالانه دیتاک را منتشر می‌کنیم تا به نوبه خودمان کمکی کرده باشیم به رواج فرهنگ داده‌محوری و شفافیتی که به دنبال آن خواهد آمد و کشورمان، سخت نیازمند آن است.

که عشق آسان نمود اول و…

خیلی‌ها فکر می‌کنند با وجود کلان‌داده‌ای که ما به واسطه حوزه فعالیتمان به آن دسترسی داریم، تحلیل و استخراج بینش (Insight) کار آسانی است. این افراد گمان می‌کنند ما همچون جادوگران دنیای دیجیتال فقط نیاز داریم وِردی بخوانیم و در یک چشم به هم زدن، همه چیز برایمان مهیا خواهد شد. 

ممکن است شما هم مثل خیلی از مشتریان ما گمان کنید با چند کلیک ساده در سامانه دیتاک، می‌توانید تمام اطلاعات و تحلیل‌های مربوط به یک موضوع را استخراج کنید، اما آیا واقعا اینطور است؟ تجربه ما که اینطور نمی‌گوید. در واقع، چالش‌ها از همان مرحله اول، یعنی جمع‌آوری داده آغاز می‌شوند؛ چالش‌هایی مثل سختگیری شبکه‌های اجتماعی در ارائه API تا درگیری بی‌پایان با انواع و اقسام ربات‌ها و اکانت‌های سازمانی که کار را برای جویندگان حقیقتِ مجازی دشوار می‌کنند. 

مساله بعدی، کار با داده حاصل از شبکه‌های اجتماعی است که قلق‌های خاص خودش را دارد. مثلا اینکه کدام محتوا در چه پلتفرمی برای تحقیق درباره چه موضوعی انتخاب شود و چگونه در آن به موضوع بپردازیم؟ یا اینکه اصلا آیا دیتایی که در رابطه با آن موضوع خاص تولید شده به سطحی رسیده که بتوان آن را «کلان‌داده» نامید و منبع پژوهش قرار داد؟ بگذارید یک مثال برایتان بزنیم؛ در فضایی مثل توییتر فارسی، «هشتگ» مبنای خوبی برای پروژه افکارسنجی نیست، چون بشدت می‌تواند تحت تاثیر فعالیت اکانت‌های سازمانی قرار بگیرد (ما نیز در بخش توییتر این گزارش، آگاهانه سعی کردیم از تمرکز به هشتگ‌ها اجتناب کنیم.) یا در بسیاری موارد شاهد هستیم در تعریف و طراحی پژوهش، اشتباهات و سوءبرداشت‌هایی در مورد فضای مجازی وجود دارد. مثلا در طراحی برخی پژوهش‌های رایج فضای مجازی پاسخ درستی به اینکه آیا در حال «افکارسنجی» هستیم یا «رسانه‌سنجی»؟ داده نمی‌شود و می‌تواند باعث مشکلات عدیده در روند پژوهش و نتایج آن باشد. برای مثال، کانال‌های تلگرامی با تعداد اعضای بالا یا اکانت‌های سازمانی توییتری نماینده افکار عمومی نیستند و رسانه محسوب می‌شوند. 

همه اینها را بگذارید کنار کار با Big Data که خودش دریایی از پیچیدگی است و اصلا، معروف است که می‌گویند کلان‌داده جایی آغاز می‌شود که فرایندها و ابزار مرسوم کار با داده دیگر در آنجا جوابگو نیست.

تخصص‌های مورد استفاده در تحلیل کلان‌داده شبکه‌های اجتماعی

کار با کلان‌داده شبکه اجتماعی پیش‌نیازهای زیادی دارد. استفاده از هوش مصنوعی، الگوریتم‌های تشخیص کپی، جنسیت، احساسات، پردازش زبان طبیعی، یادگیری ماشین، دیپ لرنینگ، مدل‌های زبانی و… تنها بخشی از تخصص‌هایی هستند که در این راه استفاده می‌شوند. با تعداد محدود داده و بدون بهره بردن از این تخصص‌ها نمی‌توان به نتایج قابل اعتنا از کلان‌داده شبکه‌های اجتماعی دست یافت. ما هم همه این تخصص‌ها را کنار هم گذاشتیم تا گزارش سالانه دیتاک را تقدیمتان کنیم.

نکات مهم درباره گزارش سالانه 1402 دیتاک

همانطور که می‌دانید، این دومین سالی است که گزارش سالانه دیتاک را منتشر می‌کنیم (مشاهده گزارش 1401). علاوه بر تجربه هفت‌ساله‌مان در کار با کلان‌داده فضای مجازی، تجربه انتشار گزارش قبلی را هم به کار گرفته‌ایم تا بهترین و دقیق‌ترین نتایج ممکن را پیشکش شما کنیم و تصویری جامع از زیست‌بوم دنیای مجازی ایرانی بسازیم. از شما خواهش می‌کنیم موارد زیر را هنگام خواندن گزارش در نظر داشته باشید:

  • کلان‌داده گردآوری‌شده توسط سامانه دیتاک که شامل بیش از 2 میلیارد رکورد، از منابع مختلف در شبکه‌های اجتماعی و رسانه‌های آنلاین است، منبع اصلی تنظیم این گزارش بوده است. علاوه بر این، در مواردی از آمار منتشرشده توسط منابع رسمی و مراکز افکارسنجی و نظرسنجی معتبر نیز استفاده شده است.
  • اگرچه کلان‌داده دیتاک، بخش بزرگی از مطالب منتشرشده توسط ایرانیان در شبکه‌های اجتماعی را در خود جای داده، شامل تمام محتوای ایرانی شبکه‌های اجتماعی نیست. در بعضی موارد، چون برآورد میزان بازدید ایرانیان در شبکه‌های اجتماعی با توجه به اینکه نسبت داده جمع‌آوری شده توسط سامانه دیتاک به کل محتوای ایرانی تولیدی ایرانیان را می‌دانیم، با در نظر گرفتن ملاحظات آماری به تعمیم دادن نتایج پرداخته‌ایم.
  • به منظور راستی‌آزمایی و اطمینان بیشتر، سعی کردیم تا در حد امکان از بیش از یک روش یا مسیر محاسباتی به اطلاعات ارائه‌شده در گزارش برسیم.
  • در این گزارش تنها مطالب منتشرشده از سوی اکانت‌های عمومی (Public) شبکه‌های اجتماعی مورد بررسی قرار گرفته‌اند. هیچگونه اشاره‌ای به نام افراد و حساب‌های کاربری منفرد نشده و اساسا موضوع، هدف و طراحی مسیر گزارش به گونه‌ای بوده که کوچکترین منافاتی با حفظ حریم خصوصی افراد نداشته باشد.
  • به منظور جلوگیری از طولانی شدن گزارش، از پرداختن به جزئیات روشی، آماری و محاسبات پیچیده پرهیز کرده‌ایم اما، در مواردی از روش‌ها، منابع و سناریوهای متعدد استفاده کرده‌ایم تا دقت گزارش را به حد قابل اعتمادی افزایش دهیم. به عنوان مثال در اینجا تنها به بخشی از منابع مورد استفاده برای تخمین گزارش «گردش مالی ایرانیان در شبکه‌های اجتماعی» اشاره می‌کنیم: 
  • اطلاعات و گزارش‌های رسمی اقتصادی منتشرشده توسط مرکز آمار، بانک مرکزی و مراجع بین‌المللی
  • گزارش‌های منتشرشده توسط فروشگاه‌های زنجیره‌ای و فروشگاه‌های آنلاین
  • اطلاعات و گزارش‌های رسمی منتشرشده از ترافیک مصرفی اینترنت، نسبت ترافیک داخلی به بین‌الملل و همچنین سهم پلتفرم‌های پرمصرف از آن
  • درآمد اپراتورها از محل فروش اینترنت در گزارش‌های سالانه عمومی و گزارش‌های منتشرشده بورسی 
  • آمارهای اعلامی توسط انجمن‌های صنفی در حوزه‌های مرتبط

و در نهایت داده‌های مختلف را براساس سناریوهای متفاوت با کلان‌داده دیتاک تطبیق دادیم تا اطلاعات کشف‌شده از ضریب اطمینان قابل قبولی برخوردار باشند.

  • همچنین، برای جلوگیری از طولانی شدن گزارش، تصمیم گرفتیم پرداختن به برخی جزئیات و بررسی عمیق‌تر بعضی موضوعات را به گزارش‌های آینده موکول کنیم. پس منتظر گزارش‌های تکمیلی ما باشید.
  • ضمن ارائه آمار مربوط به سال 1402، حتی‌الامکان نتایج را با آمار ارائه‌شده در گزارش 1401 دیتاک و همچنین، اطلاعاتی که به واسطه آرشیو کلا‌ن‌داده دیتاک از 17 سال حضور ایرانیان در فضای مجازی به آن دسترسی داریم، مقایسه کرده و به روند تغییرات آنها اشاره کرده‌ایم.

با ذکر این توضیحات، از شما دعوت می‌کنیم گزارش سالانه دیتاک 1402 را مطالعه کنید.

زهرا کرمی

مقالات مرتبط

گزارش دیتاک پربازدیدترین هولدینگ‌های ایرانی در شبکه‌های اجتماعی

پربازدیدترین هولدینگ‌های ایرانی، یکی دیگر از گزارش‌های دیتاک درباره برندهای ایرانی در…

گزارش دیتاک از صنعت لوازم خانگی در ایران

کلان‌داده شبکه اجتماعی درباره نگرش ایرانیان به برندهای لوازم خانگی ایرانی و…

دیدگاهتان را بنویسید