Retrieving Twitter argumentation with corpus queries and discourse analysis

Dykes, Nathan; Heinrich, Philipp; Evert, Stephanie

doi:10.1075/scl.105.08dyk

Part of

Broadening the Spectrum of Corpus Linguistics: New approaches to variability and change
Edited by Susanne Flach and Martin Hilpert
[Studies in Corpus Linguistics 105] 2022
► pp. 228–255

Retrieving Twitter argumentation with corpus queries and discourse analysis

Nathan Dykes | Friedrich-Alexander-Universität Erlangen-Nürnberg

Philipp Heinrich | Friedrich-Alexander-Universität Erlangen-Nürnberg

Stephanie Evert | Friedrich-Alexander-Universität Erlangen-Nürnberg

We propose a corpus linguistic approach for retrieving argumentation from tweets about Brexit. We analyse two corpora, one from before the referendum in 2016 and one from early 2019. Our approach is based on the manual development of morphosyntactic corpus queries (in CQP syntax) that target specific argumentation patterns. For the present corpora we have developed 130 queries targeting 34 logical formulae. The paper showcases the query development and presents quantitative and qualitative results on how Brexit-related arguments have changed on Twitter from 2016 to 2019.

Keywords: CQP query, argumentation, CMC, Twitter, Brexit

Article outline

1.Introduction
2.Related work
- 2.1Everyday argumentation
- 2.2Corpus linguistics and argumentation
3.Data basis
- 3.1Data acquisition and corpus preparation
- 3.2Corpus statistics
- 3.3Parts of speech and phrases
- 3.4Lemmas and entities
4.Methodology
- 4.1Corpus queries for logical representation
- 4.2Query development
5.Results
- 5.1Quantitative overview
- 5.2Case Study: As NP I VP
6.Discussion
7.Conclusion
Notes
References

Published online: 10 November 2022

https://doi.org/10.1075/scl.105.08dyk

References (28)

References

Al-Hejin, Bandar. 2015. Covering Muslim women: Semantic macrostructures in BBC News. Discourse & Communication 9(1): 19–46.

Bigi, Sarah & Greco Morasso, Sara. 2012. Keywords, frames and the reconstruction of material starting points in argumentation. Journal of Pragmatics 44(10): 1135–1149.

Degano, Chiara. 2007. Presupposition and dissociation in discourse: A corpus study. Argumentation 21: 361–378.

Dykes, Natalie, Evert, Stefan, Göttlinger, Merlin, Heinrich, Philipp & Schröder, Lutz. 2020. Reconstructing arguments from noisy text: Introduction to the RANT project. Datenbank-Spektrum 20: 123–129.

. 2021. Argument parsing via corpus queries. it – Information Technology 63(1): 31–44.

Dykes, Natalie & Peters, Joachim. 2020. Reconstructing argumentation patterns in German newspaper articles on multidrug-resistant pathogens. A multi-measure keyword approach. Journal of Corpora and Discourse Studies 3: 51–74.

Evert, Stefan, Dykes, Natalie & Peters, Joachim. 2018. A quantitative evaluation of keyword measures for corpus-based discourse analysis. Corpora and Discourse International Conference, Lancaster.

Evert, Stefan & Hardie, Andrew. 2011. Twenty-first century corpus workbench: Updating a query architecture for the new millennium. In Proceedings of the Corpus Linguistics 2011 Conference. Birmingham: University of Birmingham.

Gligorić, Kristina, Andreson, Ashton & West, Robert. 2018. How constraints affect content: The case of Twitter’s switch from 140 to 280 characters. Presented at the Twelfth International AAAI Conference on Web and Social Media, Palo Alto CA, 25–28 June.

Goudas, Theodosis, Louizos, Christos, Petasis, Georgios & Karkaletsis, Vangelis. 2014. Argument extraction from news, blogs, and social media. In Artificial Intelligence: Methods and Applications. SETN 2014 [Lecture Notes in Computer Science Vol. 8445], Aristidis Likas, Konstantinos Blekas & Dimitris Kalles (eds). Cham: Springer.

Hardie, Andrew. 2012. CQPweb: Combining power, flexibility and usability in a corpus analysis tool. International Journal of Corpus Linguistics 17(3): 380–409.

Kienpointner, Manfred. 1992. Alltagslogik. Struktur und Funktion von Argumentationsmustern. Stuttgart: Frommann-Holzboog.

Levinson, Stephen. 1983. Pragmatics. Cambridge: CUP.

Lippi, Marco & Paolo Torroni. 2016. Argumentation mining: State of the art and emerging trends. ACM Transactions on Internet Technology (TOIT) 16(2): 1–25.

Macagno, Fabrizio & Walton, Douglas. 2010. What we hide in words: Emotive words and persuasive definitions. Journal of Pragmatics 42(7): 1997–2013.

Mikolov, Tomas, Grave, Edouard, Bojanowski, Piotr, Puhrsch, Christian & Joulin, Armand. 2018. Advances in pre-training distributed word representations. In Proceedings of LREC 2018, Miyazaki, 7–12 May, Nicoletta Calzolari (Conference chair), Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, Takenobu Tokunaga (eds). <[URL]> (4 April 2022).

Minnen, Guido, Carroll, John & Pearce, Darren. 2001. Applied morphological processing of English. Natural Language Engineering 7(3): 207–223.

O’Halloran, Keiran. 2011. Investigating argumentation in reading groups: Combining manual qualitative coding and automated corpus analysis tools. Applied Linguistics 32(1): 172–196.

Owoputi, Olutobi, O’Connor, Brendan, Dyer, Chris, Gimpel, Kevin, Schneider, Nathan & Smith, Noah. 2013. Improved part-of-speech tagging for online conversational text with word clusters. In Proceedings of NAACL 2013, Alanta GA, 9–15 June. <[URL]> (4 April 2022).

Palau, Raquel & Moens, Marie-Francine. 2009. Argumentation mining: The detection, classification and structure of arguments in text. In ICAIL ’09: Proceedings of the 12th International Conference on Artificial Intelligence and Law. Barcelona, 8–12 June. <> (4 April 2022).

Partington, Alan. 2003. The Linguistics of Political Argument: The Spin-Doctor and the Wolf-Pack at the White House. London: Routledge.

Proisl, Thomas & Uhrig, Peter. 2016. SoMaJo: State-of-the-art tokenization for German web and social media texts. In Proceedings of the 10th Web as Corpus Workshop, Paul Cook, Stefan Evert, Roland Schäfer & Egon Stemle (eds). Stroudsburg PA: ACL.

Ritter, Alan, Clark, Sam & Etzioni, Oren. 2011. Named entity recognition in tweets: An experimental study. In EMNLP ’11: Proceedings of the Conference on Empirical Methods in Natural Language Processing, Edinburgh, 27–31 July, Poala Merlo (ed.). Stroudsburg PA: ACL.

Schäfer, Fabian, Evert, Stefan, & Heinrich, Philipp. 2017. Japan’s 2014 general election. Political bots, right-wing internet activism and PM Abe Shinzō’s hidden nationalist agenda. Big Data 5(4): 294–309.

van Dijk, Teun. 2008. Discourse and Context. A Sociocognitive Approach. Cambridge: CUP.

van Eemeren, Frans, Houtlosser, Peter, & Snoeck Henkemans, Francisca. 2007. Argumentative Indicators: A Pragma-Dialectical Study. Dordrecht: Springer.

Walton, Douglas, Reed, Chris & Macagno, Fabrizio. 2008. Argumentation Schemes. Cambridge: CUP.

Zappavigna, Michele. 2015. Searchable talk: The linguistic functions of hashtags. Social Semiotics 25(3): 274–291.