Ética e Inteligência Artificial: Tipos de Viés em Machine Learning

A inteligência artificial (IA) está longe de ser infalível. Por isso, é bastante comum novos debates tratarem da ética associada à inteligência artificial.

Quer se trate de acidentes de veículos autônomos ou de contratempos com reconhecimento facial, é tentador para o público em geral pensar que a inteligência artificial não é fidedigna. Entretanto, ela apenas faz o que é treinada a executar.

Os modelos de IA incluem algoritmos e dados. Logo, são tão bons quanto a matemática aplicada e a qualidade dos dados sobre os quais são treinados.

Quando as coisas dão errado com a IA, é por uma das duas razões: ou o modelo de IA é falho, partindo de premissas erradas, ou o algoritmo que conduz o modelo foi insuficientemente ou incorretamente treinado.

O viés, de uma forma ou de outra, está por trás de muitos problemas associados aos algoritmos e aos dados. Se não for atenuado fará com que o modelo de inteligência artificial sistematize, eventualmente, até mesmo preconceitos. Isso, é claro, levanta grandes questionamentos relacionados à ética desse tipo de tecnologia.

Enquanto engenheiros de software, cientistas de dados, e profissionais data-driven exploram as vastas possibilidades oferecidas pela IA, surge um imperativo ético crítico: abordar e mitigar o viés em algoritmos de machine learning.

Este artigo se propõe a discutir a importância da ética em IA, com um foco especial no desafio do viés em machine learning, oferecendo insights valiosos para engenheiros de dados, cientistas de dados, profissionais da área de negócios, estudantes e educadores.

Sumário

Compreendendo o Viés em Machine Learning
Estratégias para Mitigação de Viés
Conclusão

Compreendendo o Viés em Machine Learning

O viés em machine learning ocorre quando um algoritmo produz resultados sistematicamente prejudicados devido a suposições errôneas no processo de aprendizado.

Este viés pode derivar de várias fontes, incluindo dados de treinamento enviesados, práticas inadequadas de modelagem, ou mesmo objetivos de negócio mal definidos.

Por exemplo, se um conjunto de dados de treinamento para um sistema de recrutamento IA inclui predominantemente currículos de um gênero específico, o modelo pode inadvertidamente aprender a preferir candidatos desse gênero.

Viés de Algoritmo

Esse primeiro tipo de viés, conhecido como ‘Algorithm Bias”, na verdade não tem nada a ver com dados. Em vez disso, refere-se a uma propriedade do próprio algoritmo de inteligência artificial.

Quando usado no contexto de aprendizado de máquina, a palavra “bias” (viés na tradução para o português) tem um significado diferente. Para os cientistas de dados, o viés, juntamente com a variância, descreve uma propriedade de algoritmo que influencia o desempenho da previsão.

O viés e a variação são interdependentes e os cientistas de dados geralmente buscam um equilíbrio entre os dois.

Modelos com alta variação tendem a se flexionar para encaixar os dados de treinamento. Eles podem acomodar mais facilmente a complexidade, mas também são mais sensíveis ao ruído e podem não ser bem generalizados para dados fora do conjunto de treinamento.

Modelos com alto viés são rígidos. Eles são menos sensíveis a variações nos dados e podem perder complexidades subjacentes. Ao mesmo tempo, eles são mais resistentes ao ruído.

Encontrar o equilíbrio apropriado entre essas duas propriedades para um determinado modelo em um determinado ambiente é um conjunto de habilidades críticas para a ciência de dados.

Reduzir erros de previsão no aprendizado de máquina através do trade-off de viés é uma etapa bem compreendida pelos bons profissionais, mas ainda podem ocorrer falhas. Portanto, é preciso atenção para evitar o viés de algoritmo.

Viés de Amostra

O viés de amostra ocorre quando os dados usados para treinar o modelo não representam com precisão as amostras e o problema no qual o modelo operará.

Há uma variedade de técnicas para selecionar amostras de populações e validar sua representatividade. Também há várias técnicas para identificar características populacionais que precisam ser capturadas em amostras.

Em outras palavras, atenuar o viés da amostra é uma técnica bem compreendida em várias disciplinas, incluindo psicologia e ciências sociais. Equipes de ciência de dados podem buscar esse conhecimento, caso não tenham experiência em amostragem experimental.

Para citar um exemplo óbvio, mas ilustrativo, se se espera que um veículo autônomo opere durante o dia e à noite, mas seja treinado apenas com dados diurnos, seus dados de treinamento certamente refletirão o viés de amostra.

É altamente improvável que o modelo que dirige o veículo aprenda a operar à noite com dados de treinamento incompletos e pouco representativos. Cientistas de dados devem buscar um equilíbrio entre os dois.

Viés de Preconceito

O viés de preconceito ocorre quando o conteúdo dos dados de treinamento é influenciado por estereótipos ou preconceitos provenientes da população. Esse tipo de preconceito tende a dominar as manchetes em torno dos fracassos da IA, porque afeta questões culturais e políticas sensíveis.

Torna-se um problema quando os cientistas de dados ou as organizações que os empregam geram sistemas que manifestam comportamentos que refletem esses preconceitos.

Um algoritmo que é exposto a bancos de imagens com fotos de profissionais de enfermagem, por exemplo, poderia ser facilmente induzido ao erro. Muitas profissões são estereotipadas, pois possuem grande representatividade de um gênero. A profissão enfermagem está muito associada a mulheres, logo bancos de imagens poderiam representar a profissão apenas com integrantes do sexo feminino.

Portanto, se uma reflexão prévia não for aplicada às imagens que são introduzidas no algoritmo, poderia ser possível deduzir que todos os profissionais de enfermagem são mulheres. Isso pode acontecer porque, na realidade – e em amostras aleatórias de fotos de pessoas no trabalho – estatisticamente há mais enfermeiras mulheres do que homens.

Mas mesmo que a população de profissionais de enfermagem hoje seja majoritariamente feminina, não é verdade que todos sejam mulheres. Podemos considerar inadequado que o algoritmo produza resultados que inferem incorretamente uma relação causal.

Mitigar o viés de preconceito requer insights sobre as maneiras pelas quais o preconceito e os estereótipos podem chegar aos dados. Além disso, os humanos que rotulam e anotam dados de treinamento podem ser treinados para evitar a introduzir seus próprios preconceitos sociais ou estereótipos nos dados de treinamento.

Abordar essa forma de preconceito geralmente requer a colocação de restrições nos dados de entrada (treinamento) ou saídas (resultados). Assim, por exemplo, um modelo não concluirá que todos os profissionais de enfermagem são mulheres se também for exposto a imagens de enfermeiros homens em números proporcionais aos que podem ser encontrados no local de trabalho.

Viés de Medida

Esse tipo de viés resulta de uma medição incorreta. O resultado é uma distorção sistemática de todos os dados.

Essa distorção pode ser originada por um dispositivo que coleta os dados. Uma câmera com um filtro cromático, por exemplo, gerará imagens com um viés de cor de forma consistente.

Tal como acontece com o viés da amostra, também existem técnicas estabelecidas para detectar e mitigar o viés de medição. É uma boa prática comparar as saídas de diferentes dispositivos de medição, por exemplo.

Além disso, a coleta de dados pode ser mal planejada. Uma pesquisa com perguntas direcionadas, mesmo que de forma inconsciente, também exercerá influência sobre as respostas.

Profissionais familiarizados, com mais experiência em pesquisa, já conhecem práticas para evitar distorções sistemáticas. Também é essencial treinar os funcionários de rotulagem e anotação antes que eles trabalhem em cima dos dados reais.

“O algoritmo e os produtos orientados por dados sempre refletirão as escolhas de design dos seres humanos que os criaram, e é irresponsável assumir o contrário.” Fred Benenson, Kickstarter

Estratégias para Mitigação de Viés

A mitigação de viés em machine learning é fundamental para garantir que as soluções de inteligência artificial sejam justas e eficazes. Para engenheiros de dados, cientistas de dados, e outros profissionais envolvidos na criação de modelos de IA, é crucial adotar estratégias robustas que identifiquem e neutralizem o viés potencial. Abaixo, detalhamos algumas das abordagens mais eficazes para enfrentar esse desafio.

Diversificação dos Dados de Treinamento

A escolha dos dados com que um modelo é treinado pode ter um impacto significativo na sua performance e imparcialidade. Dados não representativos ou tendenciosos podem levar a modelos que perpetuam ou até exacerbam preconceitos existentes. Para mitigar esse risco:

Enriquecer o dataset: Incluir uma ampla variedade de exemplos de todas as categorias representativas da população alvo.
Revisão e correção de dados: Analisar os conjuntos de dados para identificar e corrigir desequilíbrios ou exclusões.

Desenvolvimento de Modelos Transparentes

A transparência no desenvolvimento de modelos é crucial para a identificação e correção de viés. Modelos que são explicáveis facilitam o entendimento de como as decisões são tomadas, o que é essencial para detectar viés.

Modelos Explicáveis: Utilizar técnicas que permitem que os modelos forneçam justificativas para suas previsões ou classificações.
Documentação Rigorosa: Manter um registro detalhado das variáveis utilizadas, da seleção de características, e dos algoritmos escolhidos.

Uso de Técnicas de Aprendizado Desenviesado

Técnicas específicas de machine learning podem ser aplicadas para reduzir o viés durante o treinamento do modelo.

Aprendizado justo: Implementar algoritmos que considerem explicitamente a equidade como parte do critério de otimização.
Reponderação de Dados: Ajustar pesos de dados no treinamento para garantir que grupos minoritários sejam adequadamente representados.

Auditorias e Testes Contínuos

Após a implementação do modelo, é essencial realizar auditorias contínuas para monitorar e avaliar o desempenho do modelo em condições reais.

Auditorias Regulares: Estabelecer checkpoints para revisar e avaliar os modelos em busca de sinais de comportamento tendencioso.
Feedback de Usuários: Incorporar o feedback dos usuários para entender como o modelo está performando em diferentes cenários e com diferentes grupos demográficos.

Formação e Conscientização das Equipes

Educar e treinar as equipes envolvidas no desenvolvimento de IA sobre as implicações éticas e as técnicas para mitigação de viés é fundamental.

Workshops e Treinamentos: Promover a educação contínua sobre ética em IA e técnicas para detecção e mitigação de viés.
Cultura de Consciência Ética: Estimular uma cultura organizacional que valorize e priorize práticas éticas em todas as etapas do desenvolvimento de software e modelagem de dados.

Conclusão

À medida que avançamos na era da informação, a responsabilidade de desenvolver tecnologias que respeitem os princípios éticos e promovam a inclusão torna-se cada vez mais crítica. A ética em IA não é apenas um complemento; é uma necessidade fundamental para garantir que a tecnologia trabalhe para o benefício de todos.

Modelos de IA e algoritmos são construídos por humanos. Da mesma forma, os dados que treinam esses algoritmos são criados, limpos, rotulados e anotados também por humanos.

A matemática, apesar de correta, pode ser mal utilizada, pois os algoritmos buscarão padrões em dados tendenciosos. Os resultados, previsivelmente, nem sempre estarão corretos.

Nem todas as equipes de ciência de dados possuem as habilidades internas para evitar e mitigar o viés de dados de treinamento. Portanto, é preciso que essas equipes pelo menos estejam conscientizadas dos problemas de inteligência artificial associados à ética e ao viés.

Categoria:

Inteligência Artificial,

Última Atualização: maio 9, 2024

Ética e Inteligência Artificial: viés em machine learning