Análisis de sentimientos en artículos de prensa en español usando predicados como características

Resumen

La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los artículos de noticias. Capturamos la semántica y la postura del texto codificando características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español.

Autores/as

Descargas

La descarga de datos todavía no está disponible.

Palabras clave

Citas

Atserias, J., Casas, B., Comelles, E., González, M., Padró, L., & Padró, M. (2006). Freeling 1.3: Syntactic and semantic services in an open-source NLP library. In Proceedings of LREC 2006 (pp. 2281-2286). Retrieved from https://pdfs.semanticscholar.org/60a6/9dab3b7d53ba1032bd698ee62935d3d56921.pdf.

Baccianella, S., Esuli, A., & Sebastiani, F. (2010). SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In Proceedings of LREC 2010 (pp. 2200-2204). Retrieved from https://www.researchgate.net/publication/220746537_SentiWordNet_30_An_Enhanced_Lexical_Resource_for_Sentiment_Analysis_and_Opinion_Mining.

Balahur, A., Steinberger, R., Kabadjov, M., Zavarella, V., Van Der Goot, E., Halkia, M., … Belyaeva, J. (2010). Sentiment analysis in the news. In Proceedings of the 7th International Conference on Language Resources and Evaluation (LREC'2010) (pp. 2216-2220). Retrieved from https://arxiv.org/abs/1309.6202.

Becker, I., & Aharonson, V. (2010). Last but definitely not Least: On the Role of the Last Sentence in Automatic Polarity-Classification. In Proceedings of the ACL 2010 Conference Short Papers (pp. 331-335). Retrieved from https://www.aclweb.org/anthology/P/P10/P10-2061.pdf.

Carreras, X., Chao, I., Padró, L., & Padró, M. (2004). Freeling: An Open-Source Suite of Language Analyzers. In Proceedings of LREC 2004 (pp. 239-242). Retrieved from http://nlp.lsi.upc.edu/papers/carreras04.pdf.

Cruz, F. L., Troyano, J. A., Pontes, B., & Ortega, F. J. (2014). ML-SENTICON: Un lexicón multilingüe de polaridades semánticas a nivel de lemas. Procesamiento del Lenguaje Natural, (53), 113-120.

Gamon, M. (2004). Linguistic correlates of style: authorship classification with deep linguistic analysis features. In Proceedings of the 20th International Conference on Computational Linguistics (Article No. 611). Retrieved from https://dl.acm.org/citation.cfm?id=1220443.

Joshi, M., & Penstein-Rosé, C. (2009). Generalizing dependency features for opinion mining. In Proceedings of the ACL-IJCNLP 2009 Conference short papers (pp. 313-316). Retrieved from https://dl.acm.org/citation.cfm?id=1667680.

Li, Q., Wang, T., Li, P., Liu, L., Gong, Q., & Chen, Y. (2014). The effect of news and public mood on stock movements. Information Sciences, 278, 826-840. doi : 10.1016/j.ins.2014.03.096.

Li, S., Lee, S. Y. M., Chen, Y., Huang, C.-R., & Zhou, G. (2010). Sentiment classification and polarity shifting. In Proceedings of the 23rd International Conference on Computational Linguistics (pp. 635-643). Retrieved from https://dl.acm.org/citation.cfm?id=1873853.

Li, X., Xie, H., Chen, L., Wang, J., & Deng, X. (2014). News impact on stock price return via sentiment analysis. Knowledge- Based Systems, 69, 14-23. doi: 10.1016/j.knosys.2014.04.022.

Liu, B. (2012). Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies, 5(1), 1-167. doi: 10.2200/S00416ED1V01Y201204HLT016.

Liu, B. (2015). Sentiment analysis: Mining opinions, sentiments, and emotions. Cambridge: University Press.

Mitra, A., Parthasarathi, V., & Mamani, S. (2015). Using narbs for political prediction. In P. Kommers & P. Isaías (Eds.), Proceedings of the 13th International Conference on e-Society (pp. 274-278). Retrieved from http://www.iadisportal.org/digital-library/using-narbs-for-political-prediction.

Mohammad, S., Kiritchenko, S., Sobhani, P., Zhu, X., & Cherry, C. (2016). SemEval-2016 task 6: Detecting stance in tweets. In S. Bethard, M. Carpuat, D. Cer, D. Jurgens, P. Nakov, & T. Zesch (Eds.), Proceedings of the 10th International Workshop on Semantic Evaluation (semEval-2016) (pp. 31-41). Stroudsburg: Association for Computational Linguistics.

Mullen, T., & Collier, N. (2004). Sentiment analysis using support vector machines with diverse information sources. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://www.aclweb.org/anthology/W04-3253.

Nasukawa, T., & Yi, J. (2003). Sentiment analysis: Capturing favorability using natural language processing. In Proceedings of the 2nd International Conference on Knowledge Capture (pp. 70-77). Retrieved from https://dl.acm.org/citation.cfm?id=945658&dl=ACM&coll=DL.

Ng, V., Dasgupta, S., & Arifin, S. (2006). Examining the role of linguistic knowledge sources in the automatic identification and classification of reviews. In Proceedings of the COLING/ACL on main conference poster sessions (pp. 611-618). Retrieved from https://dl.acm.org/citation.cfm?id=1273073&picked=prox.

Osgood, C. E., Suci, G. J., & Tannenbaum, P. H. (1957). The Measurement of Meaning. Illinois: University of Illinois Press.

Padró, L. (2011). Analizadores Multilingües en FreeLing. Linguamática, 3(2), 13-20.

Padró, L., Collado, M., Reese, S., Lloberes, M., & Castellón, I. (2010). FreeLing 2.1: Five years of open-source language processing tools. In N. Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odijk, S. Piperidis, M. Rosner, & D. Tapias (Eds.), Proceedings of the Seventh International Conference on Language Resources and Evaluation: LREC 2010 (pp. 931-936). Valletta, Malta: European Language Resources Association.

Padró, L., & Stanilovsky, E. (2012). FreeLing 3.0: Towards Wider Multilinguality. In Proceedings of LREC 2012 (pp. 2473-2479). Retrieved from https://pdfs.semanticscholar.org/b6de/1f38185454dd32e6ff4ac86405d46681d0ee.pdf.

Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1-2), 1-135.

Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up? Sentiment Classification using Machine Learning Techniques. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002) (pp. 79–86). Retrieved from https://aclanthology.info/papers/W02-1011/w02-1011.

Parodi, G. (2010). La organización retórica del género Manual a través de cuatro disciplinas: ¿cómo se comunica y difunde la ciencia en diferentes contextos universitarios? Boletín de Lingüística, 22(33), 43-69.

Quiroz, G., Tamayo, A., & Zuluaga, J. F. (2017). Cuestiones metodológicas y técnicas en la recolección de un corpus de prensa con la palabra “pobreza”. In A. Chiquito & G. Quiroz (Eds.), Pobreza, lenguaje y medios en América Latina (pp. 21-43). Bern: Peter Lang.

Real Academia Española y Asociación de Academias de la Lengua Española. (1973). Esbozo de una nueva gramática de la lengua española. Madrid: Espasa Calpe.

Real Academia Española y Asociación de Academias de la Lengua Española. (2009). Nueva gramática de la lengua española. Madrid: Espasa.

Schumaker, R. P., Zhang, Y., Huang, C.-N., & Chen, H. (2012). Evaluating sentiment in financial news articles. Decision Support Systems, 53(3), 458-464. doi: 10.1016/j.dss.2012.03.001.

Swales, J. M. (2004). Research genres: Explorations and applications. Cambridge: Cambridge University Press.

Taboada, M., Brooke, J., Tofiloski, M., Voll, K., & Stede, M. (2011). Lexicon-based methods for sentiment analysis. Computational Linguistics, 37(2), 267-307.

Turney, P. D. (2002). Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL) (pp. 417–424). Retrieved from https://dl.acm.org/citation.cfm?id=1073153.

Xia, R., Wang, T., Hu, X., Li, S., & Zong, C. (2013). Dual Training and Dual Prediction for Polarity Classification. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Vol. 2: Short papers), (pp. 521-525). Retrieved from http://aclweb.org/anthology/P13-2093.

Xia, R., & Zong, C. (2010). Exploring the use of word relation features for sentiment classification. In Proceedings of the 23rd International Conference on Computational Linguistics: Posters (pp. 1336-1344). Retrieved from https://dl.acm.org/citation.cfm?id=1944719.

Yessenalina, A., Choi, Y., & Cardie, C. (2010). Automatically Generating Annotator Rationales to Improve Sentiment Classification. In Proceedings of the ACL 2010 Conference Short Papers (pp. 336-341). Retrieved from https://aclanthology.info/papers/P10-2062/p10-2062.

Yessenalina, A., Yue, Y., & Cardie, C. (2010). Multi-level Structured Models for Document-level Sentiment Classification. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (pp. 1046-1056). Retrieved from https://www.aclweb.org/anthology/D/D10/D10-1102.pdf.

Zaidan, O., Eisner, J., & Piatko, C. (2007). Using “Annotator Rationales” to Improve Machine Learning for Text Categorization. In Proceedings of NAACL HLT 2007 (pp. 260-267). Retrieved from http://www.aclweb.org/anthology/N07-1033.

Publicado
2019-07-29
| 115 |