مثل خیلی چیزهای دیگر روند و تحولات  انتخابات ریاست جمهوری ایران  را نیز از طریق اینترنت و رسانه های اجتماعی دنبال می کردم. این نمودار آخرین مورد از پیش‌بینی های من در مورد نتیجه انتخابات بود که جمعه گذشته پیش از آغاز رای گیری، در فیس‌بوک و توییتر منتشر کردم. روند انتخابات ثابت کرد آمار موجود در چارت فوق و چند نمودار و تحلیل دیگر که از چند هفته پیش از انتخابات منتشر کردم، درست ترین تحلیل های آماری ارایه شده در میان همه تحلیل های منتشر شده توسط رسانه ها، خبرگزاری ها، موسسات افکار سنجی و نظر سنجی های داخل و خارج از ایران بوده است.

می خواهم بگویم چگونه این تحلیل را انجام دادم و به نقاط ضعف و قوت خود و سایر آمار های منتشر شده اشاره کنم چون انجام گرفتن درست چنین افکارسنجی هایی کاربردهای گسترده در روابط عمومی، بازاریابی، سیاست و مطالعات اجتماعی دارد. قبل از هرچیز بگویم که آنچه پیش‌بنی و منتشر کردم به هیچ عنوان ناشی از گمانه‌زنی سیاسی نبوده است، بنای تبلیغ یا تشویق به نفع هیچ کاندیدایی نیز نداشته است. من به دلایلی که بازگوکردنش ربطی به این مقاله ندارد اصلن در انتخابات شرکت نکردم در عین حال برای همه کسانی که به هریک از کاندیداها رای دادند یا به هر دلیلی رای ندادند احترام قایلم و مطمئنم اکثر قریب به اتفاق کسایی که رای دادند یا رای ندادند همه به فکر هم بودند به فکر آینده ای بهتر برای کشورشان بودند. اما تحلیلی که انجام دادم و در این مقاله آن را تشریح می کنم مانند هر بررسی علمی مبتنی بر داده های موجود و عاری از هر گونه اعمال نظر یا سلیقه شخصی بوده است.

کاری که انجام دادم “افکارسنجی” بود و آنچه مورد بررسی قراردادم حرف ها، کنجکاوی‌ها، سوال‌ها، امیدها و نگرانی های مردم بود که در رسانه های اجتماعی به صورت عمومی مطرح می کردند یا در گوگل جستجو می کردند یا در وبلاگ ها و سایت های خبری می نوشتند. در شیوه مورد استفاده،  هیچ نظر سنجی انجام ندادم از کسی نپرسیدم به چه کسی رای می دهد و اساسا پرسش‌نامه ای نیز طراحی نکردم.

این شیوه نوین از پژوهش است که به جای پرسش و مطالعه نظرات افراد کمی به عنوان “جامعه نمونه”، اقدام به بررسی هرآنچه در رسانه های اجتماعی منتشر می  شود، می کند. وقتی مقوله به بزرگی انتخابات باشد این حجم کلان اطلاعات نوعی از داده‌هاست که اصطلاحا به آن Big Data  یا بزرگ‌داده می گویند با تکنیک های مختلف شناسایی، جمع آوری و مورد بررسی قرار می گیرد.

گمانه ها

از ابتدا یکی از مواردی که مورد بررسی قرار دادم امتیاز کلاوت بود امتیاز کلاوت شاخصی برای اندازه گیری نفوذ و تاثیر گذاری افراد است که به همه کاربران رسانه های اجتماعی امتیازی بین 10 تا 100 می دهد و تاثیر گذاری آنها را به صورت علمی  برآورد می کند. آخرین وضعیت کاندیداها از نظر امتیاز کلاوت تا چهار روز پیش از انتخابات را این‌جا منتشر کردم. اما کلاوت به تنهایی بیان گر میزان محبوبیت نیست و امتیاز کلاوت ارتباطی به درصد رای هم ندارد کلاوت تنها یک شاخص جانبی برای برآورد موفقیت کاندیداها در تعامل با کاربران رسانه های اجتماعی است ، در مورد انتخابات ریاست جمهوری آمریکا امتیاز کلاوت دو کاندیدای نهایی  باراک اوباما 98 و میت رامنی 88 است.

یکی دیگر از موارد مورد بررسی برای افکار سنجی در رسانه های اجتماعی تعداد توییت بر ساعت است به صورت منطقی تعداد توییت های مرتبط با یک کلمه، یک فرد یا یک موضوع معیار دقیقی از اهمیت آن را نشان می دهد، در مورد انتخابات ایران، در چند هفته مانده به انتخابات از روزهای نام نویسی در روزهای نخست و هنگام مناظره ها متوسط توییت های فارسی که به انتخابات مرتبط بود حدود 500 توییت بر ساعت بود ولی همزمان با مناظره دوم رکورد توییت های مرتبط با انتخابات به 7750 توییت در ساعت رسید  ( این‌جا توییت کردم). درنهایت با داغ‌تر شدن جو انتخابات به صورت متوسط تعداد کل توییت های مرتبط با انتخابات در سه هفته‌ی منتهی به انتخابات را حدود 700 توییت بر ساعت برآورد می کنم.

یکی دیگر از مواردی که در دوره انتخابات در نظر داشتم میزان جستجوی نام کاندیداها و عبارات مرتبط با آنها در گوگل بود این شاخص در مطالعه‌ی گرایشات جامعه از اهمیت بسیار بالایی برخوردار است به همین دلیل هم سال‌هاست که گوگل با معرفی “گوگل ترند” و چند ابزار دیگر امکان انجام بررسی های دقیقی را به کاربران می دهد. در مورد انتخابات ایران به عنوان مثال در یک بررسی ساده به تاثیر حذف هاشمی از انتخابات پرداختم و در همان زمان که صلاحیت هاشمی رد شد این‌جا منتشر کردم.

در طول مدت تبلیغات گاهی به داده های جالبی هم می رسیدم، چند روز قبل از انتخابات این‌جانوشتم:

ایرانی ها در هفته گذشته، دو و نیم بار بیشتر از “سکس” به “روحانی” فکر کرده اند.

 این نشانه روشنی بود از فراگیر شدن جو انتخابات و محبوبیت روحانی در بین مردم، واقعیت این است که سکس  و مقولاتی مانند پورنوگرافی اهمیت زیادی در مطالعات  اینترنتی دارند، بخش زیادی از وقت کاربران  را به خود اختصاص می دهند تا پیش از فراگیری رسانه های اجتماعی سایت های پورنوگرافی بیشترین حجم ترافیک را در اینترنت به خود اختصاص می دادند و هریک از سایر انواع سایت ها نظیر سایت های خبری، بازی ها، وبلاگ ها  و برنامه های آنلاین ترافیک کمتری از سایت های پورنوگرافی داشتند.
من برآورد میزان مشارکت مردم در انتخابات را نزدیک به 70 درصد می دانستم که از بررسی کلمات مرتبط با انتخابات و مقایسه آنها با کلماتی نظیر سکس، دلار و کار  به نتیجه گیری رسیدم.

روحانی یا عارف؟

از ابتدای نهایی شدن کاندیداها در بررسی هایی که داشتم به وضوح مشخص بود که آرای روحانی و عارف در مجموع از آرای قالیباف یا جلیلی بیشتر است آرای قالیباف هم در آغاز مسابقه انتخابات به علت انتشار سخنرانیش که در آن به خاطراتش از مقابله با تظاهرات خیابانی اشاره می کرد افت کرد، پیش از این اظهارنظر قالیباف شاید این فرصت را داشت که امروز به جای روحانی باشد. از طرفی برتری آرای روحانی به عارف نیز از ابتدا مشخص بود و در مناظره ها پررنگ تر شد، امتیاز کلاوت و تعداد توییت ها و تعداد جستجوی های مرتبط با روحانی نیز بیش از موارد مشابه برای عارف بود.
اما نکته مهم این بود که حتی پیش از ائتلاف عارف و روحانی نیز، آرای روحانی از جلیلی و قالیباف بیشتر بود و مطابق داده های موجود روحانی بدون کناره گیری عارف با یک برتری ضعیف به دور دوم انتخابات راه می یافت.
ضمن اینکه رای عارف پس از کناره گیری به سبد روحانی واریز شد و من هم در  نتایجی که قبل یا بعداز کناره گیری عارف منتشر کردم رای هردو را به نام روحانی نشان داده ام، توجه بفرمایید من تنها وضعیت داده ها را ذکر می کنم و برای نظر طرفداران اقای عارف که اقدام وی را نوعی فداکاری می دانند احترام زیادی قایلم.

 انتشار افکارسنجی

موارد فوق نمونه هایی از بررسی هایی که داشتم اما هنوز تصمیمی برای ارایه یک جمع بندی دقیق از میزان آرای کاندیداها نداشتم، تا اینکه 4-5 روز مانده به انتخابات نمودارهایی از نظرسنجی های مختلف  که با داده هایی که من بدست آورده بودم اختلاف زیادی داشت و به نظرم کاملا نادرست می رسیدند  توجه‌ام را جلب کرد.
بیش از همه نظرسنجی هایی بود که سایت ipos.me  منتشر می کرد که از اساس اشتباه به نظر می آمد و خیلی زود مورد استناد افراد و رسانه های مختلف قرار گرفتند، ابتدا شک کردم که این سایت با تعمد آمار اشتباه ارایه می دهد که یا کسانی که می خواهند رای ندهند را به شرکت در انتخابات ترغیب کند یا در ذهن مردم  جوی به نفع قالیباف القا کند، درنهایت چهار روز قبل از انتخابات  اینجا در فیسبوک نوشتم:
“یکی از پدیده های این انتخابات ظهور خلق الساعه “موسسات معتبر نظرسنجی” است.مثلا نظر سنجی های سایت http://ipos.me/ که برای تشویق به شرکت در انتخابات استفاده می شود.سایت خودش را موسسه خصوصی Information and Public Opinion Solutions LLC معرفی می کند.این سایت تنها >>هشت<< روز پیش ثبت شده است: http://goo.gl/eumRa  دارنده و مالک این دامین و این سایت نامشخص است و اسمی از موسسه در اطلاعات مربوط به دامین و هاست این سایت نیست.” هیچ عنوانی از گردانندگان سایت در سایت نبود، اطلاعات و آمار آن اشتباه بود و استناد افراد مختلف به آن خیلی شک ایجاد می کرد.

درنهایت  چند ساعت بعد در فیسبوک نوشتم: ” دوستان بخصوص کسانی که رای می دهند. تحلیل داده های اینترنتی به طرز عجیبی حکایت از برتری قابل توجه روحانی دارد. هنوز مطمئن نیستم ولی بعید نیست انتخابات با پیروزی روحانی در مرحله اول همراه باشد. امیدوارم اشتباه نکرده باشم و تا چند ساعت دیگه بتونم یکی دوتا نمودار و آنالیز دقیق پست کنم.”

در این میان البته یکی از دوستان گفت که همان روز دکتر حسین قاضیان در برنامه افق مطرح کرده اند که مدیر سایت ipos هستند و نگرانی ها را برطرف کرد.  دکتر قاضیان در این ویدیو ضمن بیان نظراتی درست و متین در مورد تفاوت نظرسنجی و نظرخواهی، به نکاتی نیز اشاره کردند که حاکی از علت اشتباه بودن نتایج نظرسنجی های ipos بود ضمن احترام برای ایشان تصور می کنم  که شیوه نظرسنجی تلفنی بی اعتبارتر از افکارسنجی های اینترنتی است،
با وجود داده های انلاین تکیه به الگوی جامعه نمونه و تلاش برای تعمیم دادن نظر یک جامعه کوچک به کل جامعه به هیچ عنوان توجیه پذیر نیست، عدم توجه و شناخت ایشان از متدهای مطالعاتی با داده آنلاین به خصوص وقتی مشخص‌تر می شود که برای رد نظرسنجی های اینترنتی به نظرخواهی های فیسبوکی اشاره می کنند و نظرسنجی های اینترنتی را فاقد اعتبار می دانند.
نظرسنجی های فیس‌بوک جنبه سرگرمی دارند که مثلا من از دوستانم بپرسم پیتزا بیشتر دوست دارند یا دیزی. اما از طریق فیس‌بوک هم با افکار سنجی از طریق داده های عمومی و هم با برنامه های نظرسنجی حرفه ای می توان تحلیل های بسیار دقیقی ارایه کرد، ایرادی دیگر بر اتکا به شیوه های قدیمی نظر سنجی، کند بودن و بروز خطاهای مختلف در واکنش پرسش‌شونده ها می باشد. در افکارسنجی اینترنتی اما می توان به نظرات صادقانه بخش مهمی از جامعه دست یافت و باسرعت بالا تحلیل کرد.
در نهایت به دلیل وفور نظرسنجی های نادرست، تصمیم گرفتم نتایج افکارسنجی های خود را با داده های مختلف جمع بندی و منتشر کنم و نوشتم:
“شاید برای اولین بار است که بررسی افکار عمومی با جمع اوری و تحلیل این حجم بالا از داده های اینترنتی در ایران اتفاق می افتد. لذا احتمال خطا زیاد است ولی از این خطا و اشتباه به شدت استقبال می کنم و این شیوه افکارسنجی را خیلی دقیق تر و روزآمد تر می دانم هرچند ایرادات ناشی از نو بودن و پخته نبودن این شیوه قابل قبول و قابل برطرف شدن هستند اما دستکم این شانس را به خودم دادم که آینده را الان تجربه کنم. تمرین این شیوه افکارسنجی را خیلی شیرین تر از تمرین دموکراسی در این انتخابات خاص می دانم. دلایل جدی دارم که امروزه بحث ضریب نفوذ اینترنت در تعمیم نتایج به کل جامعه تاثیر چندانی ندارد.”
پس از این به ترتیب سه نمودار دیگر را نیز منتشر کردم نمودار اول آرای روحانی را  تا 22 خرداد 49.6 درصد نشان می دهد. نمودار دوم  و  نمودار سوم  روند محبوبیت کاندیداها در چهار مقطع زمانی مهم انتخابات یعنی “بعد از تایید صلاحیت” ، “مناظره سوم” ، “کناره گیری عارف” و “روز پایات تبلیغات بود. انتشار نموداری که تصویر آن را در ابتدای این مقاله می بینید نیز درست پیش از آغاز رای گیری انجام گرفت  و در نهایت پیروزی روحانی با 52.1 درصد آرا پیش‌بینی کردم اما در مقایسه، نمودارهای ipos  از آغاز تا روز رای گیری آرای روحانی رابین 12 تا 20 درصد پایین تر از میزان واقعی و بدست آمده از رسانه های اجتماعی نشان می داد.

جزییات فنی افکارسنجی

برای انجام این افکار سنجی به ترتیب این مراحل انجام شده است:
-شناسایی منابع داده ها، یعنی از میان انبوه داده های موجود در اینترنت، پست های وبلاگ ها، توییت ها، بلاگ ها، نظرات کاربران، و همه رسانه های اجتماعی باید به دقت انتخاب کرد که چه اطلاعاتی و از کدام سایت ها استخراج و پردازش شود. به عنوان مثال فیس‌بوک با تخمین من حدود 18 میلیون کاربر ایرانی دارای حق رای را در خود جای داده است حجم اطلاعاتی که این کاربران به صورت عمومی منتشر می کند آنقدر زیاد است که چمع آوری و اندازه گیری آن حتی برای دوره محدودی مانند سه هفته منتهی به انتخابات به ده‌ها ترابایت فضا و هزاران گیگاهرتز توان محاسباتی نیازمند است. شاید موثر ترین عامل که به من برای پیش بینی درست کمک کرد انتخاب صحیح منابع داده بود.
منابع داده های مورد استفاده در این افکارسنجی به این شرح است:
* توییت های مرتبط با انتخابات ( به طور متوسط 700 توییت در ساعت)
* برد خبری کاندیداها در سایت های خبری و وبلاگستان فارسی با استفاده از جستجوی گوگل در مجموع حدود چهارصدهزار پست مرتبط با انتخابات با استفاده از جستجوی اخبار و جستجوی وبلاگ‌ها توسط گوگل.
* میزان جستجوی نام کاندیداها در گوگل از محدوده جغرافیایی ایران
* بررسی آمار لایک، نظرات و بازنشر در 21 پیج و پروفایل تاثیرگذار فیسبوک در مجموع حدود 30 هزار تعامل اجتماعی
همانطور که مشخص است از میان همه اطلاعات فیسبوک فقط به اطلاعات عمومی موجود در 21 “فن پیج” و “پروفایل شخصی” اکتفاکردم این 21 منبع درواقع جامعه نمونه ای از جامعه هجده میلیونی کاربران ایرانی فیسبوک در اختیار من قرارداد، جالب است بدانید پیج پ نه پ و پروفایل شخصی ابراهیم نبوی دو مورد از این 21 منبع بودند.
 در انتخاب منابع از اینستاگرام و گوگل پلاس صرفنظر کردم ، به همان دلیل که توییتر بهترین ابزار افکارسنجی برای چیزهایی است که مردم می گویند اینستاگرام به باور من بهترین ابزار افکارسنجی برای چیزهای است که مردم می بینند یا توجه مردم را جلب می کنند و من هم به API و برنامه سازی برای آن تسلط خوبی دارم اما چون موضوع مورد بررسی انتخابات بود و اینستاگرام مورد استفاده افرادی است که گوشی های موبایل هوشمند دارند و از نظر اقتصادی نماینده همه جامعه نیستند از اینستاگرام صرفنظر کردم. گوگل‌پلاس هم برای اینکه API آن هنوز محدود است و استخراج اطلاعات از آن کمی زمان‌بر است و من هم زمان خیلی کمی داشتم مورد استفاده قرار ندادم.
– چمع آوری داده ها: پس از انتخاب منابع می بایستی داده های انتخاب شده را از سایتها و منابع مختلف جمع آوری کرد برای این کار ابزارها و راه های مختلفی وجود دارد عمده این اطلاعات از طریق خوراک یا فید، API و فید براساس هشتگ یا کلمات کلیدی جمع آوری شدند. بخشی از اطلاعات مانند داده های گوگل ترند نیز به دلیل محدود بودن حجم داده به صورت دستی در فایل اکسل ذخیره می شدند. اما اطلاعاتی که با فید و API بدست می آمدند باید در یک دیتابیس قرار می گرفتند در این موارد من از وردپرس به عنوان اینترفیس و رابط بین محتوا و دیتابیس استفاده می کنم به این معنا که مثلا هرتوییت را با استفاده از وردپرس تبدیل به یک پست در وردپرس می کنم تا همه داده ها در دیتابیس MySQL ذخیره شوند بعد با استفاده از  PHP My Admin برای حستجوی موارد موردنیاز و تبدیل داده های خام به داده های موثر اقدام کردم.
شیوه ای که من برای آنالیز دیتا به کاربردم شیوه ای خودساخته است که با کمترین هزینه امکان انجام چنین افکارسنجی هایی را ممکن می سازد هرچند تعداد زیادی سایت و برنامه آنلاین برای انجام بررسی های محدود یا پیشرفته به صورت رایگان یا با هزینه های گزاف موجود است اما به خصوص من به ابزاری نیاز داشتم که در بررسی محتوای فارسی هم قابل اعتماد باشد.
– تحلیل داده ها: جمع آوری حجم زیادی  داده  از منابع مختلف به این معنا نیست که هر واحدی از داده، اهمیت یکسانی دارد مثلا اهمیت یک توییت در مورد انتخابات با یک کامنت فیسبوک، جستجوی گوگل یا پست وبلاگ در مورد انتخابات یا هر یک از کاندیداها یکسان نیست. می بایست به دقت تخمین زد کاربران ایرانی توییتر چه بخشی از کل جامعه ایران هستند و کسانی که در گوگل چیزی را جستجو می کنند چه درصدی از جامعه ایران را تشکیل می دهند. سپس برای هریک از منابع وزن و اهمیت مناسبی را منظور کرد و تاثیر داده ههای آن در آنالیز نهایی را  منظور کرد و نمودار دقیق محبوبیت کاندیداها به این شکل ترسیم شد.

خطاها و ایرادات پیش‌بینی من

باوجود آنکه نتایج افکارسنجی من تنها تحقیقی بود که پیروزی روحانی را حتی در مرحله نخست انتخابات نشان می داد و علاوه بر این درصد آرای روحانی، رضایی و غرضی را نیز با دقت بالا تخمین زد می توان فرض کرد که اگر این انتخابات نظیر انتخابات آمریکا دوقطبی بود تمام محاسبات صددرصد صحیح از آب در می آمد اما مهمترین ایراد محاسبات من  برتر دانستن رای جلیلی از قالیباف مبتی بر داده های بدست آمده بود. در این مورد هنوز مشغول بررسی هستم ولی فکر می کنم اطلاعات ناقص من از پدیده “رای منفی” و نحوه محاسبه نقش آن در افکارسنجی
در کنار عدم آگاهی از نحوه‌ی قانونی محاسبه آرای باطله در جمع بندی نتایج انتخابات توسط وزارت کشور دو دلیل اصلی برای بروز خطا های این افکارسنجی بودند. احتمال می دهم جلیلی رای منفی بالایی داشت و در این انتخابات که تجربه اول من بود نتوانستم راهی دقیق برای محاسبه آن پیدا کنم. شاید رشد آرای ولایتی در انتخابات به نسبت آنچه در محاسبات من نشان داده شد در واقع ناشی ریزش بخشی از آرای جلیلی بود.
به هر روی این تجربه خوب را برای این با شما درمیان بگذارم که برای متخصصین روابط عمومی، مدیران بازاریابی و پژوهشگران اجتماعی الگویی نوین از انجام مطالعات ارایه کرده باشم من بواسطه علاقه و فعالیت در زمینه بازاریابی و روابط عمومی از طریق رسانه های اجتماعی با تحقیقات بازار و شناسایی گرایش های جامعه به عنوان پیش‌نیازی برای انجام پروژه های روابط عمومی و بازاریابی درگیر هستم و قسمت جالب‌تر درواقع استفاده از نتایج این تحقیقات در سایت و برنامه ریزی کمپین های تبلیغاتی است.
پروفایل من در لینکداین و حساب توییتر

نظرات

نظر (به‌وسیله فیس‌بوک)