DEBATE DE PRÓS E CONTRAS – CONTRA: Inteligência Artificial não é uma Pílula Mágica

Piyush Mathur, MD, FCCM

Artigo relacionado:

PRÓ: Inteligência Artificial (IA) na Área da Saúde


Este Debate de Prós e Contras realizou-se na Stoelting Conference de 2019, intitulada “Patient Deterioration: Early Recognition, Rapid Intervention, and the end of Failure to Rescue.” Os dois autores deste debate têm experiência na adoção da inteligência artificial para manejar pacientes que estão se deteriorando no ambiente hospitalar.

Espera-se que a Inteligência Artificial (IA) resolva muitos problemas enfrentados pelos serviços de saúde, como prever morbidade e mortalidade e superar o desempenho dos médicos no diagnóstico. Na realidade, apesar do aumento das pesquisas, há um número limitado de algoritmos de IA clinicamente validados. Mesmo com o aumento do número de aplicações de IA aprovados pela Food and Drug Administration dos EUA, a implantação e o amplo uso dessas aplicações são um desafio. O cientista da computação Rodney Brooks descreveu alguns dos desafios das previsões da IA. Dentre eles, superestimar ou subestimar soluções, imaginar algoritmos mágicos, a escala de implantação e as limitações de desempenho1,2.

As limitações de desempenho da IA são especialmente importantes nas soluções de IA diagnóstica. Muitos pesquisadores que usam redes neurais artificiais alegam que ela melhora o diagnóstico e supera os médicos, como no diagnóstico de doenças visualizadas nas radiografias torácicas3. Com frequência, esses algoritmos autolimitados de espectro estreito podem detectar lesões como atelectasias ou infiltrações nas radiografias torácicas. Apesar das alegações de alta precisão, essas aplicações são difíceis de replicar e generalizar4. Em outras abordagens do aprendizado de máquina, o algoritmo do computador aprende com dados marcados pelo médico. Em muitos conjuntos de dados de radiografia torácica disponíveis ao público que sustentam esses algoritmos, as lesões são rotuladas pelos radiologistas como infiltrados, massa, atelectasia etc. Essas avaliações clínicas são consideradas o “padrão ouro”, mas foram observadas diferenças significativas entre os avaliadores5, aumentando o espectro de conjuntos de dados com marcadores incorretos. É provável que os algoritmos criados a partir desses conjuntos de dados com marcadores incorretos tenham erros significativos em seus resultados, o que pode confundir a tomada de decisão do médico.

A previsão de doenças baseada na IA é problemática de maneira similar. Na pesquisa realizada sobre a previsão de lesão renal aguda por Tomasev et al., o viés de previsão foi introduzido pelo próprio conjunto de dados. O conjunto de dados dos U.S. Veteran Affairs continha apenas 6,4% de pacientes do sexo feminino, sendo que o desempenho do modelo nessas pacientes foi inferior ao restante6. O viés continua sendo um desafio, mesmo em conjuntos de dados administrativos e soluções desenvolvidas para uso por executivos da área de saúde ou planos de saúde. Conforme demonstrado por Obermeyer et al., esses vieses podem ser introduzidos no nível do desenvolvimento do algoritmo, mas também podem estar no conjunto de dados usado ou na maneira como o algoritmo é implementado7. Esses algoritmos tendenciosos podem levar a tratamentos inadequados e inseguros para nossos pacientes.

De fato, valores preditivos insatisfatórios continuam a limitar a adoção de algoritmos de IA bem pesquisados. Os resultados baseados na “área sob a curva” (um reflexo estatístico do “ajuste do modelo”) foram amplamente explorados para relatar a precisão desses algoritmos. No entanto, é preciso considerar vários outros parâmetros, inclusive sensibilidade e valor preditivo positivo. Sem valores preditivos adequados e resultados replicáveis, é improvável que os algoritmos de IA sejam adotados pelos médicos8.

A escalabilidade e generalização dos algoritmos de IA são outro grande desafio no setor de saúde. Embora os registros eletrônicos de saúde sejam o principal meio para implantar muitos desses algoritmos, interfaces precárias, suporte limitado para as equipes de TI e falta de soluções integradas ainda limitam a facilidade de adoção.

O marketing e a propaganda exagerada criados por algumas organizações também tiveram um impacto negativo e resultaram na perda de credibilidade da IA entre muitos médicos. Algumas das descobertas bem pesquisadas foram enormemente exageradas para alavancar o atual valor de mercado associado à IA. Em uma pesquisa sobre startups europeias usando IA pela empresa de capital de risco Marsh & McLennan Companies, Inc. (MMC), 40% não estavam realmente usando IA como parte de seu produto9.

A IA mantém a promessa de fornecer soluções potencialmente mais seguras para a área da saúde, usando um volume cada vez maior de dados de maneira eficiente e reproduzível. Porém, a concretização desse potencial requer liderança do médico e validação clínica rigorosa ao desenvolver e implantar algoritmos de IA (Tabela 1).

Tabela 1: Soluções para Implantação Eficaz de IA na Área da Saúde

Foco no paciente e no profissional de saúde
Liderança do médico
Desenvolvimento e testes rigorosos de modelos
Soluções possíveis de explicar e interpretar (evitar a caixa preta)
Validação clínica para generalização e escalabilidade
Soluções econômicas

Ainda estamos nas fases iniciais de pesquisa e desenvolvimento de algoritmos de IA para a área da saúde. É evidente que o crescimento da IA tem sido exponencial, e é provável que o ritmo continue no futuro próximo. Precisamos estar preparados para dedicar recursos clínicos, de tecnologia da informação e financeiros para permitir a utilização eficaz desses algoritmos notáveis. Os médicos, especialmente os radiologistas e oncologistas, já estão liderando o desenvolvimento de muitos algoritmos de IA para evitar que soluções mal preparadas entrem em seu ambiente de trabalho. Os anestesiologistas e os médicos perioperatórios que foram pioneiros com a tecnologia e vivem em um ambiente rico em dados também precisam liderar as pesquisas, o desenvolvimento e a implantação de algoritmos sustentáveis de IA para fornecer um atendimento mais seguro aos nossos pacientes.

 

Dr. Mathur é anestesiologista/intensivista da equipe do Departamento de Anestesiologia Geral e diretor de melhoria da qualidade do Instituto de Anestesiologia, Cleveland Clinic, em Cleveland, Ohio.


O autor não tem conflitos de interesse para declarar.


Referências

  1. Brooks R. https://www.technologyreview.com/s/609048/the-seven-deadly-sins-of-ai-predictions/. MIT technology review. 2017. Accessed December 9, 2019.
  2. Panetta K. https://www.gartner.com/smarterwithgartner/5-trends-appear-on-the-gartner-hype-cycle-for-emerging-technologies-2019/. Accessed August 29, 2019.
  3. Rajpurkar P, Irvin J, Ball RL, et al. Deep learning for chest radiograph diagnosis: a retrospective comparison of the CheXNeXt algorithm to practicing radiologists. PLoS Med. 2018;15:e1002686.
  4. Zech JR, Badgeley MA, Liu M, et al. Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study. PLoS Med. 2018;15:e1002683.
  5. Oakden-Rayner L. Exploring large-scale public medical image datasets. Acad Radiol. 2019.
  6. Tomasev N, Glorot X, Rae JW, et al. A clinically applicable approach to continuous prediction of future acute kidney injury. Nature. 2019;572:116–119.
  7. Obermeyer Z, Powers B, Vogeli C, et al. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366:447–453.
  8. Ginestra JC, Giannini HM, Schweickert WD, et al. Clinician perception of a machine learning-based early warning system designed to predict severe sepsis and septic shock. Crit Care Med. 2019;47:1477–1484.
  9. Olson P. https://www.forbes.com/sites/parmyolson/2019/03/04/nearly-half-of-all-ai-startups-are-cashing-in-on-hype/#454f99e7d022. Forbes. Accessed March 4, 2019.