Como a Transparência Brasil usa inteligência artificial para identificar medicamentos em compras públicas

Plataforma cruza descrições do PNCP com catálogo federal e alcança 98% de acurácia na classificação de itens, viabilizando o monitoramento de preços no setor de saúde
Publication date
02/06/2026

A Cesta de Preços Medicamentos Transparentes, plataforma de pesquisa de preços desenvolvida pela Transparência Brasil para auxiliar gestores e servidores na aquisição eficiente de remédios públicos, recorreu à inteligência artificial para resolver um problema que inviabilizava qualquer fiscalização: embora o Portal Nacional de Contratações Públicas (PNCP) tenha publicado cerca de 12 milhões de itens comprados apenas em 2024, não havia mecanismo para distinguir medicamentos de outros bens adquiridos.

O PNCP centraliza as contratações de entes públicos de todo o país e, desde a aprovação da Nova Lei de Licitações e Contratos (14.133/2021), tornou-se o principal instrumento de transparência nessa área. A mesma lei exige que os compradores consultem o Banco de Preços em Saúde — uma base de dados com preços de referência para medicamentos e produtos de saúde — ao realizar aquisições para o sistema universal. Sem identificar quais itens são medicamentos, porém, essa exigência não pode ser monitorada. E não há como fazer essa identificação manualmente em uma base desse tamanho: um humano levaria cerca de 90 minutos para analisar 100 itens consultando um catálogo.

O problema é agravado pela falta de padronização nas descrições do portal. Os itens são registrados em texto livre, sem seguir um padrão ou catálogo obrigatório. Medicamentos aparecem com abreviações, grafias inconsistentes e ausência de acentuação, ou com nome do produto, concentração e informações de embalagem comprimidos em um único campo. Uma descrição como “Dipirona Sódica, Dosagem: 500 MG – Comprimido”, por exemplo, pode chegar ao PNCP como “Dipirona S. 500 mg comp.”

Como funciona

O primeiro passo foi fazer a correspondência entre as descrições de itens do sistema de compras públicas, utilizando os dados de contratação aberta publicados no PNCP, e as entradas do catálogo federal de bens e serviços,  o CATMAT. 

No PNCP, as descrições de bens e serviços adquiridos aparecem como texto livre nos campos de itens associados a licitações e contratos. Utilizou-se, então, um modelo de embeddings baseado em LLM para associar cada item do PNCP relacionado a medicamentos a uma entrada do CATMAT (identificada pelo seu código de catálogo, código Br), com base na similaridade entre as descrições. Na sequência, aplicou-se um limiar de similaridade para decidir se o item deve ser classificado como medicamento.

Resultados

Testado em uma amostra de mil itens rotulados manualmente, o modelo alcança 98% de acurácia na classificação de itens como medicamentos ou não, e 86% de acurácia na identificação do código Br correto no catálogo nacional. A acurácia pode ser aferida a partir do cálculo de precisão, recall e acurácia geral das previsões do modelo.

Replicável

O projeto foi desenvolvido no âmbito do programa acelerador de impacto Lift, da Open Contracting Partnership (OCP), e em parceria com a Secretaria de Gestão e Inovação do Ministério da Gestão e Inovação e com a Controladoria-Geral da União. O código-fonte está disponível publicamente no GitHub da Transparência Brasil

A abordagem é replicável: qualquer sistema de compras que disponha de descrições de itens em texto livre e um catálogo de referência pode se beneficiar de solução similar, seja para monitorar medicamentos, comparar preços ou ampliar a fiscalização em outros setores.

Support transparency in public data