بررسی تحولات توجه عمومی به نامزدهای انتخابات ریاست جمهوری ایران ۱۳۹۶

 تصویر به روز‌رسانی شده در پایان روز پنجشنبه:

Screen Shot 2017-05-19 at 13.35.55.png

با افزایش روزافزون استفاده ما از اینترنت و تکنولوژی‌های مبتنی بر آن بسیاری از مناسبات اجتماعی، اقتصادی، و سیاسی ما دستخوش تغییر شده است. به طور خاص فعالیت‌های سیاسی و مشارکت مدنی شکلی کاملا متفاوت به خود گرفته است. اگر در گذشته فعالیت سیاسی مستلزم عضویت رسمی در یک حزب و یا شرکت در یک تجمع و یا همایش و همراه با صرف زمان و انرژی می‌بود، امروزه مشارکت سیاسی می‌تواند حتی تنها با لمس صفحه گوشی تلفن همراه و از طریق به اشتراک گذاشتن یک تصویر در چت‌افزار تلگرام صورت بگیرد. من و همکارانم در کتاب “تلاطم سیاسی، چگونه رسانه‌های اجتماعی کنش‌های جمعی را شکل می‌دهند” استدلال می‌کنیم که نقش رو به رشد رسانه‌های اجتماعی در فعالیت‌های سیاسی منجر به غیرقابل پیش‌بینی‌شدن بیش از پیش رخدادهای سیاسی می‌شود. اتفاقاتی که در حدود دو سال اخیر در کشورهای مختلف رخ داده‌اند در کنار وقایع مرتبط به بهارعربی بهترین مثال‌ها برای غیرقابل پیش‌بینی بودن سیاست در دنیای برخط امروز هستند.

نظرسنجی‌ها که در طول سالیان دراز متداول‌ترین روش سیاست‌سنجی بوده‌اند اعتبار خود را از دست داده‌اند. در انتخابات‌های مختلف اخیر، پیروزی نامزدهایی که از پیشینه سیاسی ضعیفی برخوردار بودند و یا از حمایت حزبی خاصی بهره نمی‌بردند و در نظرسنجی‌ها کمترین شانسی برای پیروزی داشتند، تمامی معادلات سیاسی در دموکراسی‌های کهن را به هم ریخته است. شکست سنگین حزب کارگر در انتخابات عمومی سال ۲۰۱۵ در بریتانیا که در نهایت منجر به برگزاری رفراندوم خروج از اتحادیه اروپا و ترک اتحادیه توسط بریتانیا شد را هیچ یک از نظرسنجی‌ها پیش‌بینی نکرده بود، و مثال‌های متعدد دیگر. در عین حال، همان تکنولوژی‌های اینترنتی که سیاست را دگرگون کرده‌اند، فرصت‌های جدیدی برای سنجش افکار عمومی در اختیارمان قرار می‌دهند. امروزه به جای اینکه مجبور باشیم با تماس تلفنی و یا به صورت میدانی از نظر افراد و یا گرایش سیاسی‌شان مطلع شویم، می‌توان با بررسی و تحلیل داده‌های زیادی که در فضای مجازی تولید می‌شود، تصویر دقیقی از تحولات توجه عمومی، گرایش‌های سیاسی، دغدغه‌های جمعی و در نهایت اقبال و محبوبیت عمومی سیاستمدران به دست آورد.

به عنوان مثال، در انتخابات ریاست جمهوری سال ۱۳۹۲ که منجر به پیروزی حسن روحانی شد، کمتر نظرسنجی‌ای پیروزی یک مرحله‌ای حسن روحانی را پیش‌بینی می‌کرد. در شکل زیر اما می‌توان میزان جستجوی نام نامزدها و تعداد بازدیدهای روزانه از صفحات مربوطه در ویکی‌پدیا را در دوره‌ای یک ماهه منتهی به روز انتخابات مشاهده کرد که به وضوح رشد توجه عمومی به حسن روحانی در سه روز منتهی به انتخابات را نشان می‌دهند.

Screen Shot 2017-05-16 at 22.41.05

اگرچه میزان آرا را نمی‌توان به سادگی از این‌دست داده استخراج کرد، اما تحول زمانی میزان توجه و اقبال عمومی را می‌توان تا حد قابل ملاحظه‌ای سنجید. در پروژه‌ای قدیمی‌تر با استفاده از همین نوع داده‌ها و با استفاده از مدلسازی ریاضی توانسته‌ایم میزان فروش فیلم‌های سینمایی را حتی از یک ماه قبل از شروع اکران با دقت بالایی پیش‌بینی کنیم. البته در مورد انتخابات، عدم در دست بودن نمونه‌های کافی و فاصله زمانی طولانی بین دوره‌های انتخابات، پیش‌بینی دقیق را نامیسرمی‌کند. در این مقاله بحث می‌کنیم که چرا از تغییرات نسبی (و نه مقدار مطلق) میزان توجه عمومی به یک نامزد می‌توان به عنوان مقیاسی از محبوبیت وی و در نهایت تعداد آرایی که بدست می‌آورد استفاده کرد. از توضیح مبسوط این موضوع در این متن خودداری می‌کنم. به طور خلاصه اما دلیل این موضوع به این برمی‌گردد که عموما افراد موقعی به کسب اطلاع اقدام می‌کننند که قصد تغییر یا تثبیت رای خود را دارند.

بعد از این مقدمه نسبتا طولانی، بیایید نگاهی به انتخابات آتی ریاست جمهوری ایران بیندازیم. در نمودار زیر میزان بازدید روزانه از صفحات ویکی‌پدیا مربوط به ۴ نامزد اصلی در طول یک ماه منتهی به انتخابات تا دیروز (دوشنبه قبل از انتخابات) تا پایان روز سه‌شنبه قبل از انتخابات را می‌بینیم. خطوط سیاه عمودی تاریخ مناظره‌های تلویزیونی را نشان می‌دهند.

Screen Shot 2017-05-17 at 18.19.00

نکات جالبی را می‌توان در این نمودار مشاهده کرد.

۱) تا قبل از مناظره اول ابراهیم رئیسی بیشترین میزان توجه را به خود جلب کرده است. شاید مهمترین دلیل ناشناخته بودن وی باشد. معمولا اقبال یه سوی نامزد و یا حزب جدید و ناشناخته ناشی از عدم رضایت از وضع موجود و اعتماد به سیاستمداران شناخته شده‌تر است.

۲) در طول مناظره اول، اسحاق جهانگیری توجه زیادی را به خود جلب کرد. حملات پیاپی وی به رقبا و دفاع سرسختانه وی از دولت یازدهم در طول مناظره اول دلیل اصلی این پدیده است.

۳) رئیسی که در مناظره اول چندان فعال نبود جایگاه خود را به جهانگیری و قالیباف می‌دهد و در رتبه سوم می‌ایستد.

۴) رفته رفته با نزدیک شدن به مناظره دوم، توجهات از هر سه نامزد رقیب کاسته شده و به سمت رئیسی باز می‌گردد و اینبار در مناظره دوم (که کم‌اقبال‌ترین مناظره هم بوده است) رئیسی و جهانگیری میزان توجه یکسانی را جلب می‌کنند.

۵) در فاصله زمانی بین مناظره دوم و مناظره سوم اتفاق چندانی رخ نمی‌دهد جز اینکه روحانی به واسطه سخنرانی نسبتا تند خود در همدان  خود را بالا کشیده و بعد از رئیسی در جایگاه دوم قرار می‌گیرد.

۶) در مناظره سوم اما این رئیسی و قالیباف هستند که با حملات پیاپی و با طرح پرونده‌های فساد اقتصادی توجه‌ها را به سمت خود جلب کرده و رتبه‌های اول و دوم را از آن خود می‌کنند.

۷) در نهایت انصراف قالیباف در روز دوشنبه می‌تواند دلیل افزایش توجه به رئیسی در آخرین نقاط از این نمودار باشد.

حالا بیایید نگاهی بیندازیم به مناظره سوم و انصراف نامزدهای کمکی (قالیباف و جهانگیری). برای بررسی این اتفاقات به میزان جستجوی نام نامزدها در گوگل توجه می‌کنیم. استفاده از داده جستجوهای گوگلی به ما این اجازه را می‌دهد که تحولات را ساعت به ساعت بررسی کنیم.

Screen Shot 2017-05-16 at 23.20.50

دو خط سیاه عمودی زمان شروع و پایان مناظره سوم و خط‌های رنگی زمان اعلام انصراف هر دو نامزد را نشان می‌دهند.

۱) اگرچه حملات سه‌گانه جهانگیری که با حمله شدید وی در ابتدای مناظره شروع شد توجه زیادی را به خود جلب کرد، اما این قالیباف بود که در میانه مناظره توانست جریان توجهات را به سمت خود برگرداند و در نهایت در دور پایانی از فرصت  خود ضربه نهایی را وارد کند.

۲) انصراف قالیباف در بعدازظهر روز دوشنبه را شاید بتوان بهترین تاکتیک اردوگاه اصولگرایان دانست. حجم توجهی که قالیباف به خود و در نهایت به سمت رئیسی جلب کرد حتی از میزان توجهی که در طول مناظره به وی شد بیشتر است. انصراف قالیباف نه تنها حجم بالایی از رای وی را به رئیسی منتقل می‌کند، بلکه این هیجان مضاعف می‌تواند رای‌های مردد و یا رای‌های روحانی را نیز به سمت رئیسی متمایل کند.

۳) انصراف جهانگیری در روز سه شنبه از آن سو میزان هیجان بسیار کمی ایجاد کرد (نقاط پایانی نمودار بالا).

کلیدواژه‌ها

یکی از تاکتیک‌های اصولگرایان در این انتخابات کلیدواژه‌سازی بود. تاکید قالیباف به “چهاردرصدی‌ها” شاید بهترین مثال باشد. اما در این میان، جنجال مربوط به سند ۲۰۳۰ یونسکو شاید بزرگترین بدشانسی روحانی بود. چنانکه در نمودار زیر می‌بینیم، جستجوی این کلیدواژه از تمامی کلیدواژه‌های دیگر بیشتر بوده است. هرچند به سند ۲۰۳۰ در مناظره‌ها اشاره‌ای نشد، اما تبلیغات میدانی اصولگرایان تمرکز زیادی روی این موضوع داشت.

Screen Shot 2017-05-16 at 22.09.14

نگاهی به توزیع جغرافیایی جستجو “سند ۲۰۳۰” نیز خالی از لطف نیست.

Untitled.png

در دور اول انتخابات سال ۱۳۸۴ محمود احمدی‌نژاد در هر سه استانی که بیشترین میزان جستجوی این کلیدواژه را داشته‌اند، بیشترین میزان رای را داشت. این نتایج میزان موفقیت در نفوذ دادن این کلیدواژه در بین استان‌های اصولگرا را نشان می‌دهد.

در بالا به ضعف نظرسنجی‌های سنتی اشاره کردیم. به ویژه با توجه به مسائل فرهنگی، اجتماعی و سیاسی در ایران، میزان قابل اتکا بودن این دست نظرسنجی‌ها در مقایسه با کشورهای غربی حتی کمتر هم است. با این همه، بیایید نگاهی به یکی از نظرسنجی‌هایی که در بحث‌ها به آن استناد زیادی می‌شود بیندازیم.

نظرسنجی‌های ایپپو (IPPO) که در این سایت قابل دسترسی هستند ظاهرا از طریق تماس تلفنی تصادفی صورت گرفته‌اند. اطلاعات کمی راجع به روش نظرسنجی و گروه مجری ارائه شده است.

تصویر زیر نتایج اصلی ایپپو را نمایش می‌دهد. بر مبنای این تصویر پیروزی یک مرحله‌ای روحانی تضمین شده است. اما یک ستاره کوچک و یک پاورقی داستان را عوض می‌کند: این نتایج تنها بر مبنای نظر افرادی هست که به سوال نظرسنجی با نام یکی از نامزدهای شش‌گانه پاسخ داده‌اند.

Screen Shot 2017-05-16 at 23.55.45

اگر به تمامی پاسخ‌ها توجه شود، نتایج به شکل زیر خواهد بود.

Screen Shot 2017-05-16 at 23.58.47

همانطور که ملاحظه می‌کنید، حدود یک چهارم از سوال شونگان در نظرسنجی ایپپو گزینه “نمی‌گویم” را انتخاب کرده‌اند و حدود یک چهارم افراد هم مردد هستند. در واقعی نتایج نمودار اول ایپپو تنها بر اساس نیمی از نظرات اعلام شده است. البته تشخیص رای واقعی افرادی که پاسخ نداده‌اند و یا مردد هستند کار ساده‌ای نیست، اما وجود نسبت بالای جواب‌های غیرقابل تحلیل اعتبار نظرسنجی ایپپو را بیش از پیش زیر سوال می‌برد. سایت ایپو در توصیفی عجولانه مدعی می‌شود که احتمالا درصد زیادی از افرادی که گزینه نمی‌گویم را انتخاب کرده‌اند از طرفداران روحانی هستند و به‌دلیل ملاحظات امنیتی از دادن پاسخ طفره می‌روند. اما در مقابل باید به همبستگی بالای تعداد این افراد و طرفداران رئیسی در نمودار بالا توجه کرد. خطوط سیاه و زرد در بخشهای زیادی از نمودار موازی هستند که این موضوع می‌تواند به یکسان بودن جنس رای هر دو گروه مربوط باشد. علاوه براین، پدیده کاملا شناخته شده “محافظه‌کار خجالتی” پیشنهاد می‌کند که عموما در نظرسنجی‌های رودررو، شانس اینکه افراد با رای محافظه‌کار رای خود را کتمان کنند و یا متفاوت اعلام کنند خیلی بیشتر ازافراد متمایل به گزینه‌های لیبرال است.

هدف اصلی من از نگارش این متن تنها نشان دادن قابلیت‌های داده‌های بزرگ و استفاده از آن‌ها در بررسی تحول عقاید و البته زیر سوال بردن پیش‌بینی‌های مبتنی بر روش‌های سنتی نظرسنجی بود. پیش‌بینی نتایج انتخابات پیش رو کاری سخت است و البته اتفاقات چند روز آینده می‌تواند نقش تعیین کننده‌ای در جهت‌دهی آرا داشته باشد.

پی نوشت: از سودابه میلانی برای پیشنهاد نوشتن این متن سپاسگذارم.

Understanding voters’ information seeking behaviour

Jonathan and I recently published a paper titledWikipedia traffic data and electoral prediction: towards theoretically informed models in EPJ Data Science.

In this article we examine the possibility of predicting election results by analysing Wikipedia traffic going to different articles related to the parties involved in the election.

Unlike similar work in which socially generated online data is used in an automated learning system to predict the electoral results, without much understanding of mechanisms, here we try to provide a theoretical understanding of voters’ information seeking behaviour around election time and use that understanding to make predictions.

fig1_fig1

Left panel shows the normalized daily views of the article on the European Parliament Election, 2009 in different langue editions of Wikipedia. The right panel shows the relative change between 2009 and 2014 election turnout in each country vs the relative change in the page view counts of the election article in the corresponding Wikipedia language edition. Germany and Czech Republic are marked as outliers from the general trend.

We test our model on a variety of countries in the 2009 and 2014 European Parliament elections. We show that Wikipedia offers good information about changes in overall turnout at elections and also about changes in vote share for parties. It gives a particularly strong signal for new parties which are emerging to prominence.

We use these results to enhance existing theories about the drivers of aggregate patterns in online information seeking, by suggesting that:

voters are cognitive misers who seek information only when considering changing their vote.

This shows the importance of informal online information in forming the opinions of swing voters, and emphasizes the need for serious consideration of the potentials of systems like Wikipedia by parties, campaign organizers, and institutions which regulate elections.

Read more here.

Wikipedia readership around the UK general election

I already have written about the Wikipedia-Shapps story. So, that is not the main topic of this post! But when that topic was still hot, some people asked me whether I think anyone ever actually reads the Wikipedia articles about politicians? Why should it be important at all what is written in those articles? This post tackles that question. How much do people refer to Wikipedia to read about politics, specially around the election time?

Let’s again consider the Shapps’ case. Below, you can see number of daily page views of  of the Wikipedia article about him.

Screenshot from 2015-05-04 22:57:35

As you see, there are two HUGE peaks of around 7,000 and 14,500 views per day on top of a rather steady daily page view of sub-1000. The first peak appeared when “he admitted that he had [a] second job as ‘millionaire web marketer’ while [he was] MP“, and  the second one when the Wikipedia incident happened. Interesting to me is that while the first peak is related a much more important event, the second peak related to what I tend to call a minor event, is more than twice as large as the first one. Ok, so this might be just the case of Shapps and mostly due to media effects surrounding the controversy. How about the other politicians, say the party leaders? See the diagrams below.

Screenshot from 2015-05-04 22:57:45

A very large peak is evident in all the curves for all the party leaders with a peak of 22,000 views per day for Natalie Bennett, the leader of the Green party. Yes, that’s due to the iTV leaders’ debate on the 2nd of April. If you saw our previous post on search behaviour, you shouldn’t be surprised; surprising is the absence of a second peak around the BBC leaders’ debate on 16th of April, especially when you see the diagrams from our other post on Google search volumes.

How about the parties? How many people read about them on Wikipedia? Check it out below.

Screenshot from 2015-05-04 22:57:52

Here, there seems to be a second increase in the page views after the BBC debate on 16th April. Moreover, there is an ever widening separation between the curves of Tory-Labour-UKIP and LibDem-Green-SNP curves. This is very interesting, as Tories and Labours are the most established English parties, whereas the UKIP is among the newest ones. That’s very much related to our project on understanding the patterns of online information seeking around election times.

Elections and Social Media Presence of the Candidates

Some have called the forthcoming UK general election a Social Media Election. It might be a bit of exaggeration, but there is no doubt that both candidates and voters are very active on social media these days and take them seriously. The Wikipedia-Shapps story of last week is a good example showing how important online presence is for candidates, journalists, and of course voters. We don’t know how important this presence is in terms of shaping the votes, but at least we can look into the data and gauge the presence of the candidates and the activity of the supporters. In this post and some others we present statistics of online activity of parties, candidates, and of course voters. For an example, see the previous post on the searching behaviour of citizens around the debate times.

Who is on Twitter?

Candidates and parties are very much debated by supporters on social media, particularly Facebook and Twitter. But how active are candidates themselves on these platforms? In this post we show simply how many candidates from each party and in which constituencies have a Twitter account. Some of them might be more active than others and some might tweet very rarely, and we will analyse this activity in the next posts. Here we count only who has any kind of publicly known account.

t_all_small

Geographical distribution of candidates who have Twitter account.

The figure above shows the geographical distributions of candidates for each party and whether they have a Twitter account. There are some interesting results in there. For example, Labour has the largest number of Twitter-active candidates, whereas ALL the SNP candidates tweet. While LibDem and Green parties have the same number of accounts, normalised by the overall number of constituencies that they are standing in, Green seems to be more Twitter-enthusiastic. UKIP loses the Twitter game both in absolute number and proportion.

Who is on Wikipedia?

Having a Twitter account is something of a personal decision.  A candidate decides to have one and it’s totally up to them what to tweet. The difference in the case of Wikipedia, is that ideally candidates would not create or edit one about themselves. Also the type of information that you can learn about a candidate on their Wikipedia page is very different to what you can gain by reading their tweets.

Geographical distribution of the candidates, whom Wikipedia has an article about.

Geographical distribution of the candidates, whom Wikipedia has an article about.

The figure above shows the constituencies that the candidates standing in are featured in the largest online encyclopaedia, Wikipedia. Here, Tories are the absolute winners, in terms of the number of articles. Greens are the least “famous” candidates and LibDem are well behind the big two. In the next post we will explore often voters turn to Wikipedia to learn about the parties and candidates, and I’m sure by reading that you’ll be convinced that being featured on Wikipedia is important!

Gender?

All right, so far, Labour won Twitter presence and Tories took Wikipedia (remember all the SNP’s also have a Twitter account). But how about the gender of the candidates? Is there any gender-related feature in social presence pattern of the candidates?

First let’s have a look at the gender distribution of the candidates.

Geographical distribution of the candidates colour-coded by gender.

Geographical distribution of the candidates colour-coded by gender.

As you see in the figure above, there are fewer female candidates than male ones across all the parties. Only 12% of the UKIP candidates are female while the Greens have the highest proportion at 38%. Tories sit right next to UKIP on the list of the most male oriented parties. There is also a clear pattern that most of the constituencies in the centre have male candidates.

How about social media?

Among all the candidates, 20% of male candidates are featured in Wikipedia, whereas this is about 17% for female candidates. Almost half of the Tories male candidates are in Wikipedia, whereas this goes down to 28% for their female counterparts. Only Labour female candidates have more coverage in Wikipedia compared to the males of the party, but the difference is marginal. ّIn all the other parties, males have a higher coverage rate. The tendency of Wikipedia to pay more attention to male figures is a very well known fact. 

Twitter is different. Slightly more female candidates (76%) have a Twitter account than male candidates (69%). Almost all (96%) of Labour females tweet, and Tory female candidates are more active than their male candidates. This pattern however is lost for the UKIP candidates, as 52% of their males are on Twitter compared to only 44% of their female candidates (who have the lowest rate among all the party-gender groups).

Data

The data that we used to produced the maps and figures come mainly from a very interesting crowd-sourced project called yournextmp. However, we further validated the data using the Wikipedia and Twitter API’s. If you want to have a copy, just get in touch!

How much Wikipedia could tell us about elections

IMPORTANT NOTE: this post does not aim at predicting the results of any election. This is just a report on some publicly available data and does not draw any conclusion on it. 

In few hours, vote casting for Iranian presidential election, 2013 starts. And within few days (may be one or two) the next president of Iran for the forthcoming four years will be officially announced. This is not only an important event for all Iranians but it also could significantly impact the short or even long term history of the region and even the world, given the complicated internal and international political situation of Iran. Clearly this discussion is out of my expertise and interests and is not the goal of this post.

election1

One of the main differences between Iranian elections and many other countries’ is that most of the time, the candidates are not known until very close to the election date. The process of self-nomination (registration), and then approval and pre-selection of candidates by the Guardian Council, and official announcement of campaigning candidates is rather complicated and unpredictable. In short, almost no one knows the candidates until about a month before election dates.

The rather short period of election campaigns makes it very important how to inform the voters about the programmes and plans of the candidates as well as their previous political biography. Of course online material and social networking could play an important role in bridging between candidates and voters. Among others, Wikipedia is one of the sources that citizens refer to in order to gather at least some basic information about the candidates.

This time, there have been 8 candidates officially announced by the Ministry of Interior, from which 2 have withdrawn later. I did a simple count on the number of edits, number of unique editors, and number of page views of the Persian Wikipedia pages of those 8 candidates from May 7th (start of registration) up to now.  The results are presented in the following chart. To my surprise, there hasn’t been massive editorial work on the pages within this period (180 edits at most). However, page view numbers are relatively large, with a maximum of 180,000 hits during the same period and for the same candidate with the maximum number of edits by maximum number of unique editors. If I were a candidate, I’d have put more effort in order to complete and groom my Wikipedia page! As it’s quite visible!

More interestingly, those candidates with higher page view statistics are commonly known to have higher chances of success according to official and unofficial polls during the last few weeks (I don’t believe in any kind of  survey-based opinion mining, by the way!).

Another interesting aspect of page view statistics, is of course its temporal evolution. In the next diagram I show the number of daily views for the top-4 candidates (according to the total number of page views and excluding Aref, who has withdrawn).

election2

On May 21st, the final list of 8 candidates was announced and it’s the reason for the second peak in all 4 lines and it’s even higher for Jalili because his acceptance as a candidate was kind of a surprise and people apparently has started to know him more. The following bumps in the page view numbers of candidates are mainly due to their presence in either live TV debates or their campaign meetings. Finally, the most interesting and relevant jump is the one of Rouhani, just 2-3 days ago.Among those 4 candidate, Jalili was the least expected and known candidate who registered on the last day of registration and it produced the first peak in his page views.

The only significant event during this period was the withdrawal of Aref, which could be seen as a supportive action for Rouhani (although never mentioned explicitly).

I’d like to emphasise that I’m not trying to do any prediction based on this low-dimensional, sparse data, but if you are interested in predictions, see our soon-to-be-published paper on Early Prediction of Movie Box Office Success based on Wikipedia Activity Big Data or read about it in the Guardian.