ALGORITMOS PARCIAIS: COMO A INTELIGÊNCIA ARTIFICIAL ABSORVE PADRÕES DISCRIMINATÓRIOS E O QUE A CIÊNCIA PODE FAZER PARA EVITAR ESSAS DISTORÇÕES
Algoritmo do YouTube conduz a conteúdos cada vez mais extremistas, sobretudo à direita no espectro político
Léo Ramos Chaves
Algoritmos parciais
Como
a inteligência artificial absorve padrões discriminatórios e o que a ciência
pode fazer para evitar essas distorções
Alguns algoritmos de
inteligência artificial (IA) são desenvolvidos para aprender a reconhecer a
música preferida do usuário, o gênero de filmes que lhe interessa, os assuntos
que busca no jornal. O objetivo desse tipo de programação é identificar padrões
– e, assim, automatizar decisões e facilitar a vida das pessoas. No entanto,
por serem feitos para assimilar modelos de comportamento, os algoritmos também
podem replicar atitudes que reforçam o racismo, a misoginia e a homofobia.
Absorvem, reproduzem e, como resultado, robustecem a discriminação e a
intolerância nas mais variadas formas.
Em agosto deste ano, um estudo realizado por pesquisadores da
Universidade Federal de Minas Gerais (UFMG) apresentou um exemplo tão
contundente desse círculo vicioso que repercutiu em diversas publicações da
imprensa internacional: um processo de radicalização política no YouTube no
contexto norte-americano, onde o algoritmo de recomendação tem um importante
papel. “Já havia pesquisas qualitativas e reportagens que mostravam o YouTube
como um terreno fértil para a proliferação de comunidades obscuras vinculadas à
chamada alt-right [direita alternativa] norte-americana,
cujas ideias são intimamente relacionadas à supremacia branca”, diz o cientista
da computação Manoel Horta Ribeiro, atualmente doutorando na Escola Politécnica
Federal de Lausanne (EPFL), na Suíça. No mestrado na UFMG, sob orientação dos
cientistas da computação Wagner Meira Jr. e Virgílio Almeida, ele queria
entender como esse fenômeno acontecia.
O grupo vasculhou 331.849 vídeos
de 360 canais de diferentes orientações políticas e rastreou 79 milhões de
comentários. Um volume imenso de dados, tratável justamente graças a recursos
de inteligência artificial. “O único trabalho manual foi a classificação dos
canais conforme a orientação política, utilizando estudos e dados de ONGs
[Organizações Não Governamentais] como a ADL [Anti-Defamation League]”, diz
Ribeiro. Os resultados revelaram que os canais supremacistas brancos são
beneficiados pela migração de apreciadores de canais politicamente
conservadores de conteúdo menos radical. “Rastreamos a trajetória dos usuários
que comentavam vídeos de canais conservadores e descobrimos que, com o passar
do tempo, eles comentavam vídeos dos canais mais radicais. Havia uma migração
consistente dos conteúdos mais leves para os mais extremos”, lembra Ribeiro.
“Ainda estamos tentando entender o porquê dessa migração, mas acho que três
razões podem explicar o fenômeno: o formato da mídia, na qual todos podem criar
conteúdo e na qual os espectadores interagem muito diretamente com os
criadores; o atual cenário político mundial; e o algoritmo, que permite que
usuários encontrem ou continuem a consumir conteúdo extremista por meio do
sistema de recomendação.”
As pesquisas envolvendo o YouTube
vêm se tornando mais relevantes nos últimos anos. Segundo o cientista da
computação Virgílio Almeida, professor emérito do Departamento de Ciência da
Computação da UFMG, a plataforma de vídeos já se mostrou muito interessante
para a ciência. “O número de usuários é enorme – mais de 2 bilhões no mundo e
70 milhões no Brasil –, assim como seu impacto na sociedade”, diz o
pesquisador. Seu departamento se tornou um verdadeiro celeiro de pesquisas
sobre o fenômeno das redes sociais.
Com experiência anterior em
análise de desempenho de sistemas computacionais, Almeida começou a se dedicar
às redes sociais em 2007. Em uma sociedade cada vez mais conectada, o número e
a abrangência dos estudos nesse campo cresceu. “Além dos alunos de computação,
tive estudantes de economia, psicologia e letras. Entre os colaboradores mais
recentes alguns são do direito, da administração e das ciências políticas”,
enumera Almeida.
Os estudos que tiveram maior
repercussão vieram do campo político – polarizado tanto nos Estados Unidos
quanto no Brasil. Em 2018, uma análise de discurso de ódio e discriminação em
vídeos postados no YouTube por grupos de direita norte-americanos teve destaque
na International ACM Conference on Web Science, na Holanda. O trabalho foi
reconhecido como o melhor feito por estudantes: os alunos de doutorado Raphael
Ottoni, Evandro Cunha, Gabriel Magno e Pedro Bernardina – todos do grupo de
Wagner Meira Jr. e Virgílio Almeida.
Para investigar as falas
transcritas dos YouTubers e os comentários postados nos vídeos, os
pesquisadores da UFMG utilizaram as ferramentas Linguistic Inquiry Word Count
(LIWC) e Latent Dirichlet Allocation (LDA). O LIWC permite a classificação de palavras
em categorias correspondentes à estrutura das frases (pronomes, verbos,
advérbios etc.) e ao conteúdo emocional (se expressam alegria, tristeza, raiva
etc.). O LDA busca palavras que possam definir os principais tópicos de uma
conversa.
“Utilizamos também uma ferramenta baseada em um teste
psicológico para observar o viés dessas postagens”, explica Raphael Ottoni.
Segundo ele, a ferramenta se baseia na comparação das distâncias entre palavras
situadas em um mesmo contexto, com o fim de estabelecer associações. Isso é
feito por meio de técnicas de aprendizado de máquina que convertem as palavras
de um texto em vetores de números, por sua vez usados para calcular a
similaridade semântica das palavras. Assim, em um determinado assunto, palavras
que se situam mais próximas tendem a estabelecer entre si uma associação de
significado. “Palavras como cristianismo apareciam no texto associadas com
atributos de valor positivo, como bom ou honesto, enquanto islamismo era
frequentemente relacionada a terrorismo e morte”, diz Ottoni. Semelhante
tendência preconceituosa foi encontrada nas referências a comunidades LGBTQI+.
Essas técnicas foram, então,
aplicadas à conjuntura brasileira. Os pesquisadores estudaram vídeos publicados
no YouTube durante o período de eleições presidenciais de 2018, em 55 canais
identificados com posições políticas desde a extrema esquerda até a extrema
direita. Mensagens de ódio e teorias conspiratórias foram identificadas com
mais frequência nos canais de extrema direita – e foram justamente esses que
tiveram maior crescimento no número de visualizações, possivelmente
influenciando o resultado das urnas.
O grupo de pesquisadores está agora finalizando um artigo sobre
os resultados dessa análise. Mas, antes mesmo da publicação, o estudo foi
citado por uma reportagem do jornal The New York Times,
que fez uma série sobre a influência do YouTube em diferentes países, com
destaque para o Brasil.
Atração perigosa
Segundo Almeida, outras pesquisas já constataram que os algoritmos de recomendação de notícias e vídeos acabam se valendo da atração humana por notícias negativas e teorias conspiratórias para aumentar o engajamento dos usuários com a plataforma. “Uma pesquisa de um grupo do MIT [Instituto de Tecnologia de Massachusetts] publicada na revista científica Science mostra que os medos, as raivas as emoções mais extremas são fatores-chave na disseminação de tweets com falsidades”, destaca.
Da mesma maneira que o algoritmo
aprende as músicas e os filmes preferidos do usuário, ele também aprende suas
preferências políticas, razão pela qual as plataformas de compartilhamento de
conteúdo – como o Facebook – transformam-se em bolhas quase intransponíveis de
um determinado espectro político. O usuário recebe apenas as informações que
corroboram suas opiniões prévias.
Foi para estudar esse fenômeno – inspirado pelo livro O filtro invisível (Zahar,
2012), do ativista político norte-americano Eli Pariser –
que o cientista da computação norte-americano Christo Wilson, da Northeastern
University, dos Estados Unidos, entrou no campo das redes sociais, em 2012.
“Minhas pesquisas focavam, originalmente, o estudo da personalização dos
algoritmos utilizados pelos mecanismos de busca, e desde então tenho expandido
para outros tipos de algoritmos e contextos”, disse o pesquisador para Pesquisa FAPESP.
Atualmente em período sabático no
Centro Berkman Klein para Internet e Sociedade, da Universidade Harvard,
Estados Unidos, onde Almeida atua como professor-associado, Wilson tem acompanhado
com interesse os achados dos pesquisadores mineiros. “Gosto muito dos estudos
de Virgílio Almeida, Wagner Meira e Fabrício Benevenuto; eles fazem um trabalho
incrível nas mídias sociais.” Em 2020, Wilson também pretende se voltar
ao campo da política: planeja um grande estudo acerca do impacto das redes
sociais nas próximas eleições de seu país. “Vamos monitorar a maioria dos
serviços on-line para tentar entender como as pessoas encontram conteúdos e
como eles afetam seu comportamento”, adianta.
Discriminação algorítmica
A política é apenas um dos muitos temas que têm estimulado pesquisas do Departamento de Ciência da Computação da UFMG. O viés algorítmico pode ser encontrado onde menos se espera – como, por exemplo, nos serviços de assistentes inteligentes de voz do celular. Uma pesquisa realizada em parceria entre a Universidade de Fortaleza (Unifor) e o grupo da UFMG identificou que a eficiência dos assistentes de voz, como Google e Siri, varia conforme o sotaque e o nível de escolaridade.
A cientista da computação
Elizabeth Sucupira Furtado, coordenadora do Laboratório de Estudos dos Usuários
e da Qualidade em Uso de Sistemas (Luqs) conduziu um estudo qualitativo, em
sessões individuais e presenciais, com dois grupos de voluntários: moradores da
capital cearense, entre os quais vários nascidos em outros estados, e
estudantes de uma classe noturna de Educação de Jovens e Adultos (EJA).
“Percebemos que os usuários nascidos nas regiões Sudeste e Sul eram mais
compreendidos pelos softwares de assistentes de voz do que os outros”, revela a
pesquisadora.
Erros de pronúncia (cacoépia),
gagueira ou repetição de palavras e truncamentos (disfluência) também trouxeram
prejuízos ao desempenho dos assistentes robóticos. Segundo a pesquisadora, uma
vez que o sistema aprende com usuários que têm mais escolaridade, o treinamento
dos assistentes de voz tende a se limitar a falas padronizadas. “É importante
que as empresas percebam que existe um público que não está sendo atendido”,
alerta Furtado. “Essas pessoas continuam excluídas da inovação tecnológica.”
Nos mecanismos de busca também se
ocultam preconceitos. Foi o que demonstrou a cientista da computação
Camila Souza Araújo em sua dissertação de mestrado pela UFMG, em 2017. Nos
buscadores do Google e do Bing, a pesquisadora procurou pelos termos “mulheres
bonitas” e “mulheres feias” e constatou um preconceito indiscutível de raça e
idade. As mulheres identificadas como bonitas eram, majoritariamente, brancas e
jovens. O viés se reproduziu na maioria dos 28 países onde o buscador
Bing está presente e 41 países que utilizam o Google, mesmo os situados no
continente africano.
A receita do preconceito
Ao utilizar sistemas de aprendizagem de máquina, a sociedade corre o risco de perpetuar preconceitos inadvertidamente, graças ao senso comum que vê a matemática como neutra. Um engenheiro de dados norte-americano, Fred Benenson, cunhou um termo para definir esse risco: mathwashing. Ele se baseou no greenwashing, o uso de estratégias de marketing pelas empresas para simular preocupação ambiental. Da mesma maneira, a ideia de que os algoritmos sejam neutros também beneficia e isenta de responsabilidade as empresas que os utilizam.
Ocorre que os sistemas de inteligência artificial são
alimentados por dados, e quem faz a seleção desses dados são seres humanos –
que podem ser movidos por preconceitos de forma inconsciente ou intencional. Um
exemplo disso foi explicitado por um estudo publicado em outubro na revista Science, liderado
por um pesquisador da Faculdade de Saúde Pública da Universidade da Califórnia
em Berkeley, nos Estados Unidos. Em um grande hospital daquele país, o grupo
norte-americano verificou que o algoritmo responsável por classificar os
pacientes mais necessitados de acompanhamento – por estarem em maior risco – privilegiava brancos em
detrimento de negros. Isso acontecia porque o sistema se baseava nos
pagamentos aos planos de saúde, que são maiores no caso de pessoas que têm mais
acesso a atendimento médico, e não na probabilidade de cada um ter doenças
graves ou crônicas.
Controle e responsabilidade
Proteger a sociedade da desinformação e do preconceito disseminados pela
inteligência artificial é um desafio que poderia contar com a ajuda da
tecnologia: a própria inteligência artificial pode oferecer formas de prevenção
e controle.
Já existem, por exemplo, avanços na identificação das notícias
falsas, mais conhecidas como fake news. Em outubro de 2018, um grupo de
pesquisadores da Universidade de São Paulo (USP) e da Universidade Federal de
São Carlos (UFSCar) lançou a versão piloto de uma
ferramenta digital com esse objetivo. Ela está disponível,
gratuitamente, via web ou WhatsApp.
Basta submeter a notícia suspeita ao sistema de verificação. Ao constatar
indícios de falsidade, o sistema responde: “Essa notícia pode ser falsa. Por
favor, procure outras fontes confiáveis antes de divulgá-la”.
Segundo os autores do estudo, por
enquanto o sistema consegue identificar, com precisão de até 90%, notícias que
são totalmente falsas ou totalmente verdadeiras. Para separá-las, são usados
parâmetros como o número de verbos, substantivos, adjetivos, advérbios,
pronomes e, sobretudo, erros ortográficos presentes nos textos.
Na Universidade Estadual de
Campinas (Unicamp), um grupo liderado pelo cientista da computação Anderson
Rocha, diretor do Instituto de Computação, tem se dedicado a desenvolver
mecanismos de identificação de informações falsas veiculadas em fotos e vídeos.
“Utilizamos técnicas de IA para comparar as informações que estão em
determinado texto com comentários e possíveis imagens. Ao verificarmos esses
três grupos de informação, apontamos a possibilidade de discrepância que pode
levar à identificação de notícia falsa”, diz Rocha.
Os pesquisadores da Unicamp também se dedicam à identificação
das falsificações incrivelmente realistas de áudio e vídeo, conhecidas como deep fakes, e ao
estudo da autoria de textos postados em rede social, por meio de uma técnica
que avalia o estilo de escrita do autor – a estilometria. Outra frente de
pesquisa do grupo é a filogenia digital: “Buscamos o processo de evolução de um
determinado objeto digital – imagem, vídeo ou texto – que sofre alterações
sucessivas em sua versão original”, explica Rocha. O objetivo é identificar
como determinada notícia postada em rede social vai sendo modificada ao longo
do tempo por diferentes pessoas que adicionam ou removem elementos.
“Dificilmente teremos uma única solução, global e genérica, para o combate às fake news, mas
desenvolvemos ferramentas pontuais que vão enfrentando caso a caso. Para que
conseguíssemos um salto que nos permitisse disponibilizar ferramentas de
controle para a sociedade, precisaríamos ter investimento do setor privado
tentando trazer esse conhecimento gerado na academia e transformar em produto”,
opina o pesquisador.
Do setor privado também se espera
maior transparência no desenvolvimento das ferramentas tecnológicas. O termo
“responsabilidade algorítmica” tem sido cada vez mais utilizado nos debates
sobre o uso da IA. Segundo o advogado Rafael Zanatta, especialista em direito
digital e pesquisador do grupo de Ética, Tecnologia e Economia Digitais da USP,
ainda não existem leis específicas relacionadas aos aspectos discriminatórios
de algoritmos, mas já há iniciativas nesse sentido. Nos Estados Unidos, foi
apresentado um projeto de lei denominado Algorithmic Accountability Act. Se ele
for aprovado, as empresas terão que avaliar se os algoritmos que alimentam os
sistemas de IA são tendenciosos ou discriminatórios, bem como se representam um
risco de privacidade ou segurança para os consumidores. “Essa lei segue um
pouco da lógica da legislação ambiental, é uma espécie de avaliação de impacto
da ferramenta tecnológica”, compara Zanatta.
Em abril deste ano, a União Europeia
divulgou uma série de diretrizes éticas para o uso da inteligência
artificial. Entre elas, o estabelecimento de medidas que responsabilizem
as empresas pelas consequências sociais da utilização da IA e a possibilidade
de intervenção e supervisão humanas no funcionamento do sistema.
No Brasil, também se tentou
introduzir uma lei prevendo a revisão humana de decisões automatizadas. Um
cidadão que se sentisse prejudicado por uma decisão mediada por algoritmos – na
concessão de um empréstimo, por exemplo – poderia requerer um revisor para
esclarecer os critérios utilizados para a decisão. No entanto, o projeto foi
vetado em julho de 2019 pela Presidência da República, sensível ao argumento
das empresas de que a revisão humana acarretaria custos adicionais.
Educação antiviés
Para Virgílio Almeida, a proteção contra o uso tendencioso da IA começa na educação. Ele destaca como exemplo a iniciativa de escolas da Finlândia que estimulam as crianças a desenvolverem espírito crítico e identificarem notícias falsas na web. Não basta, claro, educar o usuário, é preciso educar também o programador. “Para evitar o viés, uma das maneiras é dispor de dados mais diversos para treinar o algoritmo”, lembra o professor.
A estudante de graduação Bruna Thalenberg, uma das fundadoras do Tecs
– Grupo de Comput{ação Social}, do Instituto de Matemática e
Estatística (IME) da USP, concorda: “O mundo está em constante mudança, os
algoritmos não deveriam repetir o passado”. Fundado em 2017 como uma equipe de
extensão, o Tecs nasceu do diálogo de estudantes da USP com o colega brasileiro
Lawrence Muratta, que fazia ciência da computação na Universidade Stanford, nos
Estados Unidos, onde já havia um grupo discutindo a questão do viés.
“Sentíamos que o curso de ciência
da computação estava muito afastado da sociedade”, conta o ex-aluno Luiz
Fernando Galati, que hoje trabalha no Centro de Ensino e Pesquisa em Inovação
da Fundação Getulio Vargas. Ele conta que o objetivo inicial do grupo era
promover palestras e debates, mas eles acabaram propondo a inclusão de um novo
curso na grade curricular, o que foi feito. “As palestras que promovemos são
oferecidas hoje na disciplina direito e software, sob a supervisão dos
professores Daniel Macedo Batista e Fabio Kon.” O Tecs também participa da
TechShift Alliance, que reúne 20 organizações de alunos universitários das
Américas do Norte, do Sul e da Ásia, dispostos a debater as questões sociais
ligadas à inteligência artificial. Os grupos se reúnem em um evento anual, chamado
TechShift Summit.
Como seu próprio nome indica, além
da reflexão, o grupo tem o propósito de se dedicar à ação, por meio de projetos
que permitam a grupos marginalizados o acesso ao universo digital. Um desses
projetos é o ensino de lógica de programação para alunos do Centro de
Atendimento Socioeducativo ao Adolescente, a Fundação Casa. “O projeto surgiu
de um contato entre uma integrante do Tecs e o Projeto Primeiro Livro, que
fazia ações em unidades da Fundação Casa e em escolas públicas. A primeira turma
do curso iniciou no segundo semestre de 2018”, conta a estudante Jeniffer
Martins da Silva, educadora do projeto. Desde sua criação, mais de 40 jovens já
passaram pelo curso.
Para os integrantes do Tecs, não
são apenas os grupos atendidos pelo projeto que podem se beneficiar com os
cursos, mas a área da ciência da computação como um todo. “Qualquer equipe com
mais diversidade tem melhor desempenho. Mais riqueza de perspectivas leva a
melhores e mais inovadoras soluções para os desafios que precisarem superar”,
conclui Silva.
Projeto
Déjà vu: Coerência temporal, espacial e de caracterização de dados heterogêneos para análise e interpretação de integridade (nº 17/12646-3); Modalidade Projeto Temático; Pesquisador responsável Anderson de Rezende Rocha (Unicamp); Investimento R$ 1.385.219,47.
Déjà vu: Coerência temporal, espacial e de caracterização de dados heterogêneos para análise e interpretação de integridade (nº 17/12646-3); Modalidade Projeto Temático; Pesquisador responsável Anderson de Rezende Rocha (Unicamp); Investimento R$ 1.385.219,47.
Artigos científicos
RIBEIRO, M. H. et al. Auditing radicalization pathways on YouTube. arXiv. 22 ago. 2019.
CAETANO, J. A. et al. Characterizing attention cascades in WhatsApp groups. Proceedings of the 10th ACM Conference on Web Science. p. 27-36. 26 jun. 2019.
CAETANO, J. A. et al. Analyzing and characterizing political discussions in WhatsApp public groups. arXiv. 2 abr. 2018.
OTTONI, R. et al. Analyzing right-wing YouTube channels: Hate, violence and discrimination. Proceedings of the 10th ACM Conference on Web Science. p. 323-332. 15 mai. 2018.
RIBEIRO, M. H. et al. Characterizing and detecting hateful users on Twitter. Twelfth International AAAI Conference on Web and Social Media. 15 jun. 2018.
ARAUJO, C. et al. Identifying stereotypes in the online perception of physical attractiveness. International Conference on Social Informatics. p. 419-37. 23 out. 2016.
LANNA, L. et al. Discrimination analysis of intelligent voice assistants. 18th Brazilian Symposium on Human Factors in Computing Systems. October 22-25, 2019.
RIBEIRO, M. H. et al. Auditing radicalization pathways on YouTube. arXiv. 22 ago. 2019.
CAETANO, J. A. et al. Characterizing attention cascades in WhatsApp groups. Proceedings of the 10th ACM Conference on Web Science. p. 27-36. 26 jun. 2019.
CAETANO, J. A. et al. Analyzing and characterizing political discussions in WhatsApp public groups. arXiv. 2 abr. 2018.
OTTONI, R. et al. Analyzing right-wing YouTube channels: Hate, violence and discrimination. Proceedings of the 10th ACM Conference on Web Science. p. 323-332. 15 mai. 2018.
RIBEIRO, M. H. et al. Characterizing and detecting hateful users on Twitter. Twelfth International AAAI Conference on Web and Social Media. 15 jun. 2018.
ARAUJO, C. et al. Identifying stereotypes in the online perception of physical attractiveness. International Conference on Social Informatics. p. 419-37. 23 out. 2016.
LANNA, L. et al. Discrimination analysis of intelligent voice assistants. 18th Brazilian Symposium on Human Factors in Computing Systems. October 22-25, 2019.
Livro
PARISER, E. O filtro invisível – O que a internet está escondendo de você. Editora Zahar, 2012, 252 p.
PARISER, E. O filtro invisível – O que a internet está escondendo de você. Editora Zahar, 2012, 252 p.
Comentários
Postar um comentário