Hate-Speech-Library-in-Spanish

所属分类:工具库
开发工具:Others
文件大小:0KB
下载次数:0
上传日期:2023-11-15 23:15:09
上 传 者sh-1993
说明:  西班牙数字新闻媒体中检测到的仇恨语音库,由MCIN AEI 10.13039 501100011033资助的“Hatemedia”项目(项目PID2020-11584GB-I00)的成果
(Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN AEI 10.13039 501100011033)

文件列表:
Hate Speech Library in Spain.xlsx (121090, 2023-11-15)
Licence (121, 2023-11-15)

# Hate-Speech-Library-in-Spanish Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033. The database shows 7,210 more repeated simple and compound slogans, and from the semantic point of view tend to be hated in digital news media in Spain. The preparation of this final document required the following phases: 1. LABELING OF EXPRESSIONS AND EXTRACTION OF SLOGMS. In the first phase, a total of 1,100,742 messages associated with digital news media in Spain were collected during January, of which a total of 776,356 messages were excluded because they were duplicated or repeated, leaving a total of 324,395 messages in which 4.06% of these were associated with expressions that tended to hate. From the total number of messages identified, stop-words were removed. Anomalous data (that did not belong to a known language or were diminutive) were identified and manually reviewed to identify simple and compound slogans that tended towards hatred. 2. IDENTIFICATION OF DUPLICATES: In the first phase, two lists were made, the first of simple lemmas and the second of compound lemmas. The first step was to filter these two lists to identify repeated lemmas, obtaining these two libraries where each lemma appears only once. 3. DDBB INTEGRATION: Next, in the third phase, we proceeded to join both libraries to build a final library that integrated all the lemmas, both simple and compound. Finally, final filtering was done to ensure the lemmas were not repeated. Authors: - Elias Said-Hung, Max Rmer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres. Supported by: - POSSIBLE S.L. For more information: - [https://www.hatemedia.es/](https://www.hatemedia.es/) or contact elias.said@unir.net Said-Hung, E., Rmer Pieretti, M., Montero-Diaz, . J., De Lucas Vicente, A., & Torres, J. M. (2023). Hate Speech Library in Spanish / Librería de odio en Espaol. https://doi.org/10.6084/m9.figshare.22383643.v2 --- Librería de expresiones de odio detectado en medios informativos digitales en Espaa, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por MCIN/ AEI /10.13039/501100011033. Las base de dato muestra 7.210 lemas simples y compuestos más repetidos y que desde el punto de vista semántico tienden al odio en medios informativos digitales en Espaa. La elaboración de este documento final, requirió las siguientes fases: 1. ETIQUETADO DE EXPRESIONES Y EXTRACCIN DE LEMAS. En la primera fase, se recolectaron durante el mes de enero un total de 1.100.742 mensajes asociados a medios informativos digitales en Espaa, de los cuales se excluyeron un total de 776.356 mensajes por estar duplicados o repetidos; quedando un total de 324.395 mensajes en el que un 4,06% de estos estaban asociados con expresiones que tendían al odio. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste) y se revisaron manualmente para identificar tanto los lemas simples como compuestos que tendían al odio. 2. IDENTIFICACIN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez. 3. INTEGRACIN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas. Autores: - Elias Said-Hung, Max Rmer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres. Apoyado por: - POSIBLE S.L. Para más información: - https://www.hatemedia.es/ o contactar a elias.said@unir.net Para usar este documento se agradece citarlo de la siguiente forma: Said-Hung, E., Rmer Pieretti, M., Montero-Diaz, J., De Lucas Vicente, A., & Torres, J. M. (2023). Hate Speech Library in Spanish / Librería de odio en Espaol. figshare. https://doi.org/10.6084/m9.figshare.22383643.v2

近期下载者

相关文件


收藏者