بررسی تحولات توجه عمومی به نامزدهای انتخابات ریاست جمهوری ایران ۱۳۹۶

 تصویر به روز‌رسانی شده در پایان روز پنجشنبه:

Screen Shot 2017-05-19 at 13.35.55.png

با افزایش روزافزون استفاده ما از اینترنت و تکنولوژی‌های مبتنی بر آن بسیاری از مناسبات اجتماعی، اقتصادی، و سیاسی ما دستخوش تغییر شده است. به طور خاص فعالیت‌های سیاسی و مشارکت مدنی شکلی کاملا متفاوت به خود گرفته است. اگر در گذشته فعالیت سیاسی مستلزم عضویت رسمی در یک حزب و یا شرکت در یک تجمع و یا همایش و همراه با صرف زمان و انرژی می‌بود، امروزه مشارکت سیاسی می‌تواند حتی تنها با لمس صفحه گوشی تلفن همراه و از طریق به اشتراک گذاشتن یک تصویر در چت‌افزار تلگرام صورت بگیرد. من و همکارانم در کتاب “تلاطم سیاسی، چگونه رسانه‌های اجتماعی کنش‌های جمعی را شکل می‌دهند” استدلال می‌کنیم که نقش رو به رشد رسانه‌های اجتماعی در فعالیت‌های سیاسی منجر به غیرقابل پیش‌بینی‌شدن بیش از پیش رخدادهای سیاسی می‌شود. اتفاقاتی که در حدود دو سال اخیر در کشورهای مختلف رخ داده‌اند در کنار وقایع مرتبط به بهارعربی بهترین مثال‌ها برای غیرقابل پیش‌بینی بودن سیاست در دنیای برخط امروز هستند.

نظرسنجی‌ها که در طول سالیان دراز متداول‌ترین روش سیاست‌سنجی بوده‌اند اعتبار خود را از دست داده‌اند. در انتخابات‌های مختلف اخیر، پیروزی نامزدهایی که از پیشینه سیاسی ضعیفی برخوردار بودند و یا از حمایت حزبی خاصی بهره نمی‌بردند و در نظرسنجی‌ها کمترین شانسی برای پیروزی داشتند، تمامی معادلات سیاسی در دموکراسی‌های کهن را به هم ریخته است. شکست سنگین حزب کارگر در انتخابات عمومی سال ۲۰۱۵ در بریتانیا که در نهایت منجر به برگزاری رفراندوم خروج از اتحادیه اروپا و ترک اتحادیه توسط بریتانیا شد را هیچ یک از نظرسنجی‌ها پیش‌بینی نکرده بود، و مثال‌های متعدد دیگر. در عین حال، همان تکنولوژی‌های اینترنتی که سیاست را دگرگون کرده‌اند، فرصت‌های جدیدی برای سنجش افکار عمومی در اختیارمان قرار می‌دهند. امروزه به جای اینکه مجبور باشیم با تماس تلفنی و یا به صورت میدانی از نظر افراد و یا گرایش سیاسی‌شان مطلع شویم، می‌توان با بررسی و تحلیل داده‌های زیادی که در فضای مجازی تولید می‌شود، تصویر دقیقی از تحولات توجه عمومی، گرایش‌های سیاسی، دغدغه‌های جمعی و در نهایت اقبال و محبوبیت عمومی سیاستمدران به دست آورد.

به عنوان مثال، در انتخابات ریاست جمهوری سال ۱۳۹۲ که منجر به پیروزی حسن روحانی شد، کمتر نظرسنجی‌ای پیروزی یک مرحله‌ای حسن روحانی را پیش‌بینی می‌کرد. در شکل زیر اما می‌توان میزان جستجوی نام نامزدها و تعداد بازدیدهای روزانه از صفحات مربوطه در ویکی‌پدیا را در دوره‌ای یک ماهه منتهی به روز انتخابات مشاهده کرد که به وضوح رشد توجه عمومی به حسن روحانی در سه روز منتهی به انتخابات را نشان می‌دهند.

Screen Shot 2017-05-16 at 22.41.05

اگرچه میزان آرا را نمی‌توان به سادگی از این‌دست داده استخراج کرد، اما تحول زمانی میزان توجه و اقبال عمومی را می‌توان تا حد قابل ملاحظه‌ای سنجید. در پروژه‌ای قدیمی‌تر با استفاده از همین نوع داده‌ها و با استفاده از مدلسازی ریاضی توانسته‌ایم میزان فروش فیلم‌های سینمایی را حتی از یک ماه قبل از شروع اکران با دقت بالایی پیش‌بینی کنیم. البته در مورد انتخابات، عدم در دست بودن نمونه‌های کافی و فاصله زمانی طولانی بین دوره‌های انتخابات، پیش‌بینی دقیق را نامیسرمی‌کند. در این مقاله بحث می‌کنیم که چرا از تغییرات نسبی (و نه مقدار مطلق) میزان توجه عمومی به یک نامزد می‌توان به عنوان مقیاسی از محبوبیت وی و در نهایت تعداد آرایی که بدست می‌آورد استفاده کرد. از توضیح مبسوط این موضوع در این متن خودداری می‌کنم. به طور خلاصه اما دلیل این موضوع به این برمی‌گردد که عموما افراد موقعی به کسب اطلاع اقدام می‌کننند که قصد تغییر یا تثبیت رای خود را دارند.

بعد از این مقدمه نسبتا طولانی، بیایید نگاهی به انتخابات آتی ریاست جمهوری ایران بیندازیم. در نمودار زیر میزان بازدید روزانه از صفحات ویکی‌پدیا مربوط به ۴ نامزد اصلی در طول یک ماه منتهی به انتخابات تا دیروز (دوشنبه قبل از انتخابات) تا پایان روز سه‌شنبه قبل از انتخابات را می‌بینیم. خطوط سیاه عمودی تاریخ مناظره‌های تلویزیونی را نشان می‌دهند.

Screen Shot 2017-05-17 at 18.19.00

نکات جالبی را می‌توان در این نمودار مشاهده کرد.

۱) تا قبل از مناظره اول ابراهیم رئیسی بیشترین میزان توجه را به خود جلب کرده است. شاید مهمترین دلیل ناشناخته بودن وی باشد. معمولا اقبال یه سوی نامزد و یا حزب جدید و ناشناخته ناشی از عدم رضایت از وضع موجود و اعتماد به سیاستمداران شناخته شده‌تر است.

۲) در طول مناظره اول، اسحاق جهانگیری توجه زیادی را به خود جلب کرد. حملات پیاپی وی به رقبا و دفاع سرسختانه وی از دولت یازدهم در طول مناظره اول دلیل اصلی این پدیده است.

۳) رئیسی که در مناظره اول چندان فعال نبود جایگاه خود را به جهانگیری و قالیباف می‌دهد و در رتبه سوم می‌ایستد.

۴) رفته رفته با نزدیک شدن به مناظره دوم، توجهات از هر سه نامزد رقیب کاسته شده و به سمت رئیسی باز می‌گردد و اینبار در مناظره دوم (که کم‌اقبال‌ترین مناظره هم بوده است) رئیسی و جهانگیری میزان توجه یکسانی را جلب می‌کنند.

۵) در فاصله زمانی بین مناظره دوم و مناظره سوم اتفاق چندانی رخ نمی‌دهد جز اینکه روحانی به واسطه سخنرانی نسبتا تند خود در همدان  خود را بالا کشیده و بعد از رئیسی در جایگاه دوم قرار می‌گیرد.

۶) در مناظره سوم اما این رئیسی و قالیباف هستند که با حملات پیاپی و با طرح پرونده‌های فساد اقتصادی توجه‌ها را به سمت خود جلب کرده و رتبه‌های اول و دوم را از آن خود می‌کنند.

۷) در نهایت انصراف قالیباف در روز دوشنبه می‌تواند دلیل افزایش توجه به رئیسی در آخرین نقاط از این نمودار باشد.

حالا بیایید نگاهی بیندازیم به مناظره سوم و انصراف نامزدهای کمکی (قالیباف و جهانگیری). برای بررسی این اتفاقات به میزان جستجوی نام نامزدها در گوگل توجه می‌کنیم. استفاده از داده جستجوهای گوگلی به ما این اجازه را می‌دهد که تحولات را ساعت به ساعت بررسی کنیم.

Screen Shot 2017-05-16 at 23.20.50

دو خط سیاه عمودی زمان شروع و پایان مناظره سوم و خط‌های رنگی زمان اعلام انصراف هر دو نامزد را نشان می‌دهند.

۱) اگرچه حملات سه‌گانه جهانگیری که با حمله شدید وی در ابتدای مناظره شروع شد توجه زیادی را به خود جلب کرد، اما این قالیباف بود که در میانه مناظره توانست جریان توجهات را به سمت خود برگرداند و در نهایت در دور پایانی از فرصت  خود ضربه نهایی را وارد کند.

۲) انصراف قالیباف در بعدازظهر روز دوشنبه را شاید بتوان بهترین تاکتیک اردوگاه اصولگرایان دانست. حجم توجهی که قالیباف به خود و در نهایت به سمت رئیسی جلب کرد حتی از میزان توجهی که در طول مناظره به وی شد بیشتر است. انصراف قالیباف نه تنها حجم بالایی از رای وی را به رئیسی منتقل می‌کند، بلکه این هیجان مضاعف می‌تواند رای‌های مردد و یا رای‌های روحانی را نیز به سمت رئیسی متمایل کند.

۳) انصراف جهانگیری در روز سه شنبه از آن سو میزان هیجان بسیار کمی ایجاد کرد (نقاط پایانی نمودار بالا).

کلیدواژه‌ها

یکی از تاکتیک‌های اصولگرایان در این انتخابات کلیدواژه‌سازی بود. تاکید قالیباف به “چهاردرصدی‌ها” شاید بهترین مثال باشد. اما در این میان، جنجال مربوط به سند ۲۰۳۰ یونسکو شاید بزرگترین بدشانسی روحانی بود. چنانکه در نمودار زیر می‌بینیم، جستجوی این کلیدواژه از تمامی کلیدواژه‌های دیگر بیشتر بوده است. هرچند به سند ۲۰۳۰ در مناظره‌ها اشاره‌ای نشد، اما تبلیغات میدانی اصولگرایان تمرکز زیادی روی این موضوع داشت.

Screen Shot 2017-05-16 at 22.09.14

نگاهی به توزیع جغرافیایی جستجو “سند ۲۰۳۰” نیز خالی از لطف نیست.

Untitled.png

در دور اول انتخابات سال ۱۳۸۴ محمود احمدی‌نژاد در هر سه استانی که بیشترین میزان جستجوی این کلیدواژه را داشته‌اند، بیشترین میزان رای را داشت. این نتایج میزان موفقیت در نفوذ دادن این کلیدواژه در بین استان‌های اصولگرا را نشان می‌دهد.

در بالا به ضعف نظرسنجی‌های سنتی اشاره کردیم. به ویژه با توجه به مسائل فرهنگی، اجتماعی و سیاسی در ایران، میزان قابل اتکا بودن این دست نظرسنجی‌ها در مقایسه با کشورهای غربی حتی کمتر هم است. با این همه، بیایید نگاهی به یکی از نظرسنجی‌هایی که در بحث‌ها به آن استناد زیادی می‌شود بیندازیم.

نظرسنجی‌های ایپپو (IPPO) که در این سایت قابل دسترسی هستند ظاهرا از طریق تماس تلفنی تصادفی صورت گرفته‌اند. اطلاعات کمی راجع به روش نظرسنجی و گروه مجری ارائه شده است.

تصویر زیر نتایج اصلی ایپپو را نمایش می‌دهد. بر مبنای این تصویر پیروزی یک مرحله‌ای روحانی تضمین شده است. اما یک ستاره کوچک و یک پاورقی داستان را عوض می‌کند: این نتایج تنها بر مبنای نظر افرادی هست که به سوال نظرسنجی با نام یکی از نامزدهای شش‌گانه پاسخ داده‌اند.

Screen Shot 2017-05-16 at 23.55.45

اگر به تمامی پاسخ‌ها توجه شود، نتایج به شکل زیر خواهد بود.

Screen Shot 2017-05-16 at 23.58.47

همانطور که ملاحظه می‌کنید، حدود یک چهارم از سوال شونگان در نظرسنجی ایپپو گزینه “نمی‌گویم” را انتخاب کرده‌اند و حدود یک چهارم افراد هم مردد هستند. در واقعی نتایج نمودار اول ایپپو تنها بر اساس نیمی از نظرات اعلام شده است. البته تشخیص رای واقعی افرادی که پاسخ نداده‌اند و یا مردد هستند کار ساده‌ای نیست، اما وجود نسبت بالای جواب‌های غیرقابل تحلیل اعتبار نظرسنجی ایپپو را بیش از پیش زیر سوال می‌برد. سایت ایپو در توصیفی عجولانه مدعی می‌شود که احتمالا درصد زیادی از افرادی که گزینه نمی‌گویم را انتخاب کرده‌اند از طرفداران روحانی هستند و به‌دلیل ملاحظات امنیتی از دادن پاسخ طفره می‌روند. اما در مقابل باید به همبستگی بالای تعداد این افراد و طرفداران رئیسی در نمودار بالا توجه کرد. خطوط سیاه و زرد در بخشهای زیادی از نمودار موازی هستند که این موضوع می‌تواند به یکسان بودن جنس رای هر دو گروه مربوط باشد. علاوه براین، پدیده کاملا شناخته شده “محافظه‌کار خجالتی” پیشنهاد می‌کند که عموما در نظرسنجی‌های رودررو، شانس اینکه افراد با رای محافظه‌کار رای خود را کتمان کنند و یا متفاوت اعلام کنند خیلی بیشتر ازافراد متمایل به گزینه‌های لیبرال است.

هدف اصلی من از نگارش این متن تنها نشان دادن قابلیت‌های داده‌های بزرگ و استفاده از آن‌ها در بررسی تحول عقاید و البته زیر سوال بردن پیش‌بینی‌های مبتنی بر روش‌های سنتی نظرسنجی بود. پیش‌بینی نتایج انتخابات پیش رو کاری سخت است و البته اتفاقات چند روز آینده می‌تواند نقش تعیین کننده‌ای در جهت‌دهی آرا داشته باشد.

پی نوشت: از سودابه میلانی برای پیشنهاد نوشتن این متن سپاسگذارم.

Collective Memory in the Digital Age

We finished our project on Collective Memory in the Digital Age: Understanding “Forgetting” on the Internet last summer, but our last paper just came out on Science Advances last week.

The paper, titled “The memory remains: Understanding collective memory in the digital age” presents the results of our study on collective memory patterns based on Wikipedia viewership data of articles related to aviation accidents and incidents.

Combined with our previous paper on Dynamics and biases of online attention, published last year, we mainly claim two things:

Our short-term collective memory is really short; shorter than a week, and it’s biased, and our long-term memory is pretty long, about 45 years, also biased, nevertheless modellable!  And the Internet plays important roles in both observations and also helps us to quantify and study these patterns.

Of course, we have reported few other facts and observations related to our collective memory, but the main message was that.

We report that the most important factor in memory triggering patterns is the original impact of the past event measured by its average daily page views before the recent event occurred. That means that some past events are intrinsically more memorable and our memory of them are more easily triggered. Examples of such events are the crashes related to the 9/11 terrorist attacks.

Time separation between the two events also plays an important role. The closer in time the two events are, the stronger coupling between them; and when the time separation exceeds 45 years, it becomes very unlikely that the recent event triggers any memory of the past event.

The similarity between the two events has turned out to be another important factor; This happens in the case of the Iran Air flight 655 shot down by a US navy guided missile in 1988, which was not generally well remembered but far more attention was paid to it when the Malaysia Airlines 17 flight was hit by a missile over Ukraine in 2014.

3 - press_fig-1

Page-view statistics of three recent flights (2015) and their effects on the page-views of past events from 2014, and events from 1995 to 2000. The recent events cause an increase in the viewership of some of the past events. 

Read the article here, the abstract says:

Recently developed information communication technologies, particularly the Internet, have affected how we, both as individuals and as a society, create, store, and recall information. The Internet also provides us with a great opportunity to study memory using transactional large-scale data in a quantitative framework similar to the practice in natural sciences. We make use of online data by analyzing viewership statistics of Wikipedia articles on aircraft crashes. We study the relation between recent events and past events and particularly focus on understanding memory-triggering patterns. We devise a quantitative model that explains the flow of viewership from a current event to past events based on similarity in time, geography, topic, and the hyperlink structure of Wikipedia articles. We show that, on average, the secondary flow of attention to past events generated by these remembering processes is larger than the primary attention flow to the current event. We report these previously unknown cascading effects.

 

The interplay between extremism and communication in a collaborative project

Collaboration is among the most fundamental social behaviours.  The Internet and particularly the Web have been originally developed to foster large scale collaboration among scientists and technicians. The more recent emergence of Web 2.0 and ubiquity of user-generated content on social web, has provided us with even more potentials and capacities for large scale collaborative projects. Projects such as Wikipedia, Zooniverse, Foldit, etc are only few examples of such collective actions for public good.

Despite the central role of collaboration in development of our societies, data-driven studies and computational approaches to understand mechanisms and to test policies are rare.

In a recent paper titled “Understanding and coping with extremism in an online collaborative environment: A data-driven modeling” that is published in PLoS ONE, we use an agent-based modelling  framework to study opinion dynamics and collaboration in Wikipedia.

Our model is very simple and minimalistic and therefore the results can be generalized to other examples of large scale collaboration rather easily.

We particularly focus on the role of extreme opinions, direct communication between agents, and punishing policies that can be implemented in order to facilitate a faster consensus.

The results are rather surprising! In the abstract of the paper we say:

… Using a model of common value production, we show that the consensus can only be reached if groups with extreme views can actively take part in the discussion and if their views are also represented in the common outcome, at least temporarily. We show that banning problematic editors mostly hinders the consensus as it delays discussion and thus the whole consensus building process. We also consider the role of direct communication between editors both in the model and in Wikipedia data (by analyzing the Wikipedia talk pages). While the model suggests that in certain conditions there is an optimal rate of “talking” vs “editing”, it correctly predicts that in the current settings of Wikipedia, more activity in talk pages is associated with more controversy.

Read the whole paper here!

journal.pone.0173561.g003

This diagram shows the time to reach consensus (colour-coded) as a function of relative size of the extreme opinion groups (RoE) and the rate of direct communication between agents (r) in four different scenarios. 

 

Using Twitter data to study politics? Fine, but be careful!

The role of social media in shaping the new politics is undeniable. Therefore the volume of research on this topic, relying on the data that are produced by the same technologies, is ever increasing. And let’s be honest, when we say “social media” data, almost always we mean Twitter data!

Twitter is arguably the most studied and used source of data in the new field of Computational Political Science, even though in many countries Twitter is not the main player. But we all know why we use Twitter data in our studies and not for instance data mined from Facebook: Twitter data are (almost) publicly available whereas it’s (almost) impossible to collect any useful data from Facebook.

That is understandable. However, there are numerous issues with studies that are entirely relying on Twitter data.

In a mini-review paper titled “A Biased Review of Biases in Twitter Studies on Political Collective Action“, we discussed some of these issues. Only some of them and not all, and that’s why we called our paper a “biased review”.

The reason that I’m reminding you of the paper now is mostly the new surge of research on “politics and Twitter” in relation to the recent events in the UK, US, and the forthcoming elections in European countries this summer.

Here is the abstract:

In recent years researchers have gravitated to Twitter and other social media platforms as fertile ground for empirical analysis of social phenomena. Social media provides researchers access to trace data of interactions and discourse that once went unrecorded in the offline world. Researchers have sought to use these data to explain social phenomena both particular to social media and applicable to the broader social world. This paper offers a minireview of Twitter-based research on political crowd behavior. This literature offers insight into particular social phenomena on Twitter, but often fails to use standardized methods that permit interpretation beyond individual studies. Read more….

fphy-04-00034-g001

Social Media: an illustration of overestimating the relevance of social media to social events from XKCD. Available online at http://xkcd.com/1239/

Even good bots fight and a typology of Internet bots

Our new paper titled “Even good bots fight: The case of Wikipedia” has finally appeared on PLOS One.

There are two things that I particularly find worth-highlighting about this work. First, this is the first time that someone looks at an ecosystem of the Internet bots at scale using hard data and tries to come up with a typology of the Internet bots (see the figure). And second, the arrangement of our team that is a good example of multidisciplinary research in action: Milena Tsvetkova, the lead author is a sociologist by training. Ruth Garcia is a computer engineer, Luciano Floridi is a professor of Philosophy, and I have a PhD in physics.

If you find the paper too long, have a look at the University of Oxford press release, or the one by the Alan Turing Institute, where both Luciano and I are Faculty Fellows.

Among many media coverages of our work, I think the one in The Guardian is the closest to ideal.

c5blo6jxeai55d3

A first typology of the Internet bots. See the source.

 

The OII Colloquia

I am very happy to announce our new series of seminars at the Oxford Internet Institute (OII), called “The OII Colloquia (TOC)“.

The OII Colloquia bring senior speakers from other departments at the University of Oxford to the Oxford Internet Institute to spark conversation around the Internet and society.

The word Colloquia (sing.: Colloquium) comes from the Latin word “Colloquy” meaning “Conversation”. Today, we often use the term to describe departmental seminars with a general topic and audience. 

https-%2f%2fcdn-evbuc-com%2fimages%2f26124578%2f154856160921%2f1%2foriginalThe OII Colloquia, however, come closer to the original sense of the word: through this series of events we aim to initiate conversations and strengthen our ties with scholars at other departments of the University of Oxford, around topics of shared interest. They should be considered as a trigger for long-lasting collaborations between the OII and the speakers’ own departments.

TOC are held twice a term (weeks 2 and 7) on Thursdays from 17:15 to 18:45 in an interactive and stimulating environment at the Oxford Internet Institute, 1 St Giles OX1-3JS open to the public (upon registration).