“Hate Covid-19” é um projeto liderado pela professora e investigadora Paula Carvalho, que tem como objetivo central contribuir para a análise e deteção de discurso de ódio nas plataformas online e em português.
A análise do discurso de ódio incidiu sobre o período de pandemia. Os grupos analisados foram: a comunidade afrodescendente, LGBTQ+ e a comunidade roma. Os investigadores analisaram as circunstâncias atuais de forma a perceber se estas impulsionaram significativamente este fenómeno. A investigação assentou na construção de um corpus representativo do fenómeno em análise, que foi manualmente anotado por linguistas e especialistas em comunicação.
O trabalho resulta num protótipo, desenvolvido durante o projeto, que permitirá identificar as mensagens potencialmente vinculadas a um discurso de ódio direto e indireto, determinando a intensidade do sentimento utilizado nesses conteúdos.
Além da professora Paula Carvalho, que é linguista e trabalha o processamento da língua natural, estão envolvidos outros cientistas do INESC-ID que trabalham também em processamento de língua natural, em inteligência artificial (Ricardo Ribeiro e Fernando Batista) e ainda uma cientista social (Cláudia Silva).
Numa conversa por Zoom, Paula Carvalho explicou-nos mais acerca do estudo “Hate Covid-19”, quais são as suas motivações, os objetivos da investigação e o seu modus operandi.
Gerador (G.) – O que te levou a lançar um projeto de investigação que tem como foco o discurso de ódio online?
Paula Carvalho (P. C.) – Este projeto de investigação foi uma das candidaturas aprovadas para financiamento pela Fundação para a Ciência e a Tecnologia (FCT), no âmbito da chamada para o apoio especial a projetos sobre o discurso de ódio. Embora, na altura em que submeti a candidatura, a minha investigação não incidisse especificamente sobre o discurso de ódio online, estava envolvida noutros projetos do INESC-ID dedicados a temas relacionados, nomeadamente a desinformação nos media e nas redes sociais. Assim, encarei este projeto como uma oportunidade para reunir uma equipa interdisciplinar, com valências complementares, que incluíam a linguística, o processamento de língua natural, a inteligência artificial e as ciências da comunicação, mas com um objetivo comum: fazer investigação para o bem social. Constituindo o discurso de ódio uma clara violação dos direitos humanos, bem como uma das maiores ameaças à coesão social e às sociedades democráticas, abraçar este projeto fez e faz todo o sentido, quer enquanto investigadora, pelos desafios que impõe, quer enquanto cidadã.
G. – Quais são as ferramentas utilizadas para a medição dos discursos nas plataformas online?
P. C. – Embora a monitorização do discurso de ódio inclua geralmente a participação dos próprios utilizadores das redes sociais, que proativamente denunciam os comentários ofensivos ou veiculadores de discurso de ódio às empresas que gerem as plataformas onde esses comentários são publicados, a verdade é que essa participação, ainda que importante, não permite dar resposta, em larga escala e em tempo útil, a este problema. Por outro lado, as estratégias automáticas baseadas fundamentalmente na identificação de palavras ou expressões potencialmente ofensivas, insultuosas ou odiosas não permitem captar com eficácia este fenómeno, que muitas vezes é expresso sem recurso a essas palavras ou expressões. De facto, apesar dos esforços que têm vindo a ser feitos à escala global, os mecanismos de monitorização do discurso de ódio nas redes online são ainda insuficientes, não permitindo avaliar com precisão a magnitude deste problema.
G. – Como são selecionados os comentários online para análise?
P. C. – Existem vários métodos de recolha de dados, nomeadamente os que se baseiam em léxicos (tipicamente criados para este efeito) constituídos por palavras ou expressões com conotação negativa. Esses léxicos são utilizados para identificar e recuperar comentários que contenham essas palavras-chave. Este método de recolha apresenta, porém, várias fragilidades, uma vez que os dados estão, à partida, condicionados, não permitindo avaliar nem a natureza nem a extensão do discurso de ódio online. Assim, neste projeto, optámos por selecionar conteúdos que mencionassem as comunidades-alvo que decidimos estudar (nomeadamente a comunidade afrodescendente, a comunidade roma e a comunidade LGBTQ+) e/ou tópicos ou eventos controversos que pudessem gerar polarização de opiniões ou discurso de ódio contra essas comunidades (por exemplo, o Rendimento Social de Inserção). Tendo em consideração a importância do contexto linguístico, social, político e geográfico na análise do discurso de ódio, tivemos igualmente a preocupação de selecionar apenas conteúdos publicados pela comunidade online em Portugal.
G. – Que critérios existem para definir um discurso como sendo de ódio?
P. C. – Por se tratar de um conceito extremamente complexo, passível de ser explorado sob diversos pontos de vista (por exemplo, legal, psicológico, político, social e linguístico), é difícil encontrar na literatura uma definição consensual e suficientemente abrangente de discurso de ódio, que permita cobrir todas estas dimensões. A definição que adotámos, alicerçada na literatura, pressupõe a verificação simultânea das seguintes condições: (i) o discurso de ódio incita, propaga ou apoia o ódio contra grupos vulneráveis ou historicamente marginalizados (ou membros desses grupos), depreciando-os, humilhando-os, discriminando-os ou mesmo ameaçando-os, com base nas suas características identitárias (por exemplo, a etnia, a nacionalidade, a raça, a cor da pele, a religião, o género, a orientação ou a identidade sexual); (ii) o discurso de ódio pode ser expresso de forma direta (ou explícita) ou indireta (ou implícita), nomeadamente através do recurso a estratégias retóricas e figuras de linguagem.
G. – A anotação é constituída por pessoas neutras, mas também por cada representante dos grupos-alvo selecionados. Qual foi a base para a escolha desse método analítico qualitativo?
P. C. – Salvo raras exceções, os investigadores responsáveis pela criação de corpora (isto é, coleções de dados) anotados não têm considerado o envolvimento dos próprios grupos-alvo no desenvolvimento desses recursos. Ora, tratando-se de um fenómeno tão complexo e subjetivo, considerámos fundamental incluir membros das comunidades visadas neste processo. Em particular, a equipa de anotadores de um dos corpora que criámos incluiu quer membros das comunidades afrodescendente, roma e LGBTQ+, quer anotadores que não pertencem a nenhuma comunidade vulnerável ou historicamente marginalizada. Efetivamente, o resultado da análise dos dados sugere que a identidade social dos anotadores pode condicionar a perceção do discurso de ódio online, o que valida a nossa abordagem metodológica.
G. – Qual é o teu papel e o papel dos investigadores no processo?
P. C. – O projeto conta com uma equipa interdisciplinar e que esteve envolvida em todas as tarefas desenhadas ao longo do mesmo. Enquanto coordenadora, tive uma participação ativa em todas as tarefas de investigação do projeto. Porém, a minha formação em linguística e processamento de língua natural foi particularmente relevante no âmbito da conceção e análise dos recursos linguísticos criados ao longo do projeto. A Cláudia Silva, investigadora em ciências da comunicação, esteve especialmente envolvida na conceção dos grupos focais e análise temática dos resultados. O Fernando Batista e o Ricardo Ribeiro trouxeram as suas valências de investigação na área da inteligência artificial e processamento de língua natural, cruciais para o desenvolvimento de estratégias de deteção automática de discurso de ódio. De referir também que a equipa contou pontualmente com outros investigadores, bolseiros de investigação e uma equipa de anotadores contratados, cujo papel foi crucial neste projeto.
G. – Com base no estudo que está a decorrer, quais têm sido as conclusões a que têm chegado?
P. C. – Embora não seja possível fazer generalizações com base em amostras relativamente pequenas (cerca de 200 000 comentários anotados), que cobrem apenas três grupos-alvo (comunidade afrodescendente, roma e LGBTQ+) e duas redes sociais (o Twitter e o YouTube), há conclusões interessantes que podemos extrair dos estudos levados a cabo. Por exemplo, observamos que o discurso de ódio indireto (implícito ou encoberto) é tão ou mais frequente nas redes sociais do que o discurso de ódio direto. O discurso de ódio indireto está frequentemente ancorado em estratégias de argumentação superficial e falaciosa, incluindo o apelo ao medo e o apelo à ação (por exemplo, o apelo ao voto em partidos de extrema-direita, como forma de combater ou solucionar o “problema”); além disso, este tipo de discurso materializa-se ainda através de figuras retóricas como a ironia ou o sarcasmo. No que se refere particularmente a um estudo de natureza qualitativa levado a cabo na fase inicial deste projeto, o qual envolveu a criação de grupos focais com membros das comunidades visadas, pudemos concluir que o discurso de ódio indireto é considerado mais nocivo do que o direto pelos grupos-alvo, mesmo quando este tipo de discurso se manifesta através do elogio ou humor. Trata-se, pois, de estratégias que procuram normalizar e perpetuar os estereótipos associados aos grupos-alvo.
G. – Consideras que a amostra é válida para uma categorização do discurso de ódio nas redes sociais, ao ponto de fazer uma deteção correta do mesmo?
P. C. – Os recursos linguísticos que criámos são fundamentais para a análise da expressão do discurso de ódio pelas comunidades online no contexto português, uma vez que os dados que os compõem foram selecionados com base em critérios sólidos e anotados com base em diretrizes teoricamente motivadas, desenvolvidas pela equipa para este fim. Estes recursos são fundamentais para o apoio ao desenvolvimento de modelos para detetar automaticamente o discurso de ódio em português. As experiências realizadas até então mostram que os resultados alcançados estão em linha com os reportados na literatura para a mesma tarefa. No entanto, temos de estar conscientes de que o reconhecimento automático de discurso de ódio é uma tarefa extremamente complexa, pelo que o desempenho dos sistemas de discurso de ódio atuais, embora promissor, está ainda muito aquém do desejado.
G. – Qual tem sido a maior dificuldade na investigação do tema e na anotação dos comentários de discursos de ódio?
P. C. – Há vários aspetos que tornam a tarefa de deteção de discurso de ódio extremamente desafiante. Além da dificuldade inerente à própria definição de discurso de ódio, que muitas vezes se confunde com outras formas de discurso, nomeadamente o discurso ofensivo, há que destacar o facto de os comentários que veiculam discurso de ódio recorrerem a um vasto conjunto de estratégias retóricas complexas, difíceis de reconhecer automaticamente e, em alguns casos, mesmo por humanos. Por outro lado, a análise do discurso pressupõe a identificação do contexto linguístico, pragmático, social e político. Ora, nas redes sociais, a informação de contexto é frequentemente vaga, em particular quando se trata de mensagens curtas, com referências omissas ou “mascaradas” e que, em muitos casos, correspondem a respostas ou reações a comentários publicados por outros utilizadores.
G. – Existe uma diferença na regulamentação e nos atos que são considerados crime do offline para o online?
P. C. – Embora essa não seja a minha área de especialização, a regulamentação para o discurso de ódio online tem, naturalmente, de ter em consideração aspetos característicos da comunicação online, tais como o potencial anonimato dos utilizadores, a instantaneidade e velocidade de propagação do discurso nas redes sociais, etc.
G. – Em que medida é que o protótipo de deteção e análise do discurso de ódio contribui para o bem social?
P. C. – Tendo em consideração os malefícios do discurso de ódio quer para as sociedades democráticas, quer especialmente para os indivíduos e grupos visados, é fundamental encetar todos os esforços que permitam identificar, monitorizar e combater a normalização deste fenómeno. Nas redes sociais, o discurso de ódio tem uma expressão cada vez maior e a sua rápida propagação e virilização requer a criação de ferramentas que auxiliem a sua deteção automática, em tempo real, porque humanamente é impossível fazê-lo. Embora os utilizadores das redes sociais possam ser aliados no combate ao discurso de ódio online, nomeadamente através da denúncia de utilizadores que publiquem estes comentários, é crucial que este trabalho seja auxiliado por ferramentas de deteção automática.
G. – O projeto tem a duração de 10 meses. Consideras ser o tempo suficiente para colocar em vigor esta ferramenta?
P. C. – Embora se trate de um projeto exploratório, de facto, 10 meses é pouco tempo para dar resposta a um desafio tão complexo. O projeto foi prorrogado por mais cinco meses e, como coordenadora deste projeto, sinto-me particularmente satisfeita com os resultados que obtivemos, os quais superaram os nossos objetivos iniciais. Tal só foi possível graças a um verdadeiro trabalho de equipa. Foram criados recursos linguísticos pioneiros para a análise do discurso de ódio em português, que apoiaram o desenvolvimento de modelos de deteção automática de discurso de ódio, nomeadamente no âmbito do trabalho de mestrado de dois bolseiros de investigação, contratados no âmbito deste projeto.
G. – Qual é a visão a longo prazo do projeto?
P. C. – A equipa deste projeto está já envolvida num outro projeto europeu dedicado à mesma temática, “kNOw HATE”, coordenado por Rita Guerra, investigadora e docente do ISCTE (Instituto Universitário de Lisboa). Tal será uma excelente oportunidade para aprofundar os resultados alcançados e expandir os recursos até então desenvolvidos.
G. – O que te levou a moveres-te em direção ao desenvolvimento deste tema ao ponto de investigar sobre ele?
P. C. – O que me moveu e me faz mover é o facto de querer atuar em áreas que possam contribuir, ainda que de forma muito modesta, para o bem social, para o combate à violência e à discriminação, procurando contribuir para a defesa da (verdadeira!) liberdade de expressão.
G. – “Mesmo quando o projeto terminar, nós continuamos a trabalhar.” O que significa isso?
P. C. – Significa que os projetos têm vida além da vida oficial dos mesmos. O financiamento é fundamental para a investigação, nomeadamente para a contratação de recursos humanos, porém, o término do financiamento não impede que a equipa continue a investigar sobre a mesma temática.