[Coluna 13] Dados pessoais, compartilhamento de dados e privacidade

O governo editou o decreto nº 10.046/2019, que dispõe sobre o compartilhamento de dados no Executivo federal. Conforme apontou o Vortex, o Tribunal de Contas da União (TCU) considerou o decreto anterior (n° 8.789/2016) insuficiente. Portanto, trata-se de uma resposta do governo à necessidade de aperfeiçoar a regulamentação para compartilhamento de dados. No entanto, muitas críticas foram feitas à falta de participação da sociedade civil na governança dos dados, bem como ao risco de vazamento de informações pessoais ou mau uso desses dados pelo governo para monitorar e controlar a sociedade civil.

Como o próprio TCU apontou na auditoria mencionada acima, as bases de dados mais importantes para compartilhamento de dados são as bases da Receita Federal do Brasil (RFB) sobre CPF e CNPJ, pois servem de identificadores centrais para quase todas as outras bases de dados.

Assim, não há outro caminho para integração das bases de dados que não passem pela utilização desses dois dados cadastrais. Os temores de setores da sociedade civil, de que essa integração permitirá ao governo controlá-la mais eficazmente, é o outro lado da moeda do fato de que ele também será muito mais eficiente na gestão de políticas públicas.

Não é um bom caminho, portanto, opor-se à integração das bases por causa dos riscos que a medida gera, pois os potenciais benefícios são proporcionais aos riscos. Mas será que não há outra forma de obter os ganhos de eficiência sem os prejuízos à democracia?

Hoje em dia há pelo menos duas estratégias para anonimização dos dados com criptografia empregadas pela indústria que permitiriam resolver o problema da integração das bases de dados, preservando a maior parte dos seus benefícios. Vale a pena entrar um pouco mais nos detalhes dessas abordagens, para entender como o governo está desperdiçando potencial de transparência e compartilhamento de dados e criando riscos desnecessários à proteção de dados pessoais.


Hash criptográfica

A indústria de cartão de crédito se depara com problema similar quando fazemos uma compra. Ela precisa dos números do cartão de crédito para autenticar a identidade do cartão, porém, ao acessar esse dado, o expõe à possibilidade de ser roubado. A solução adotada é usar o que se chama de função hash criptográfica. Basicamente, esta função transforma um número de cartão de crédito em uma sequência de letras e números (a hash) e com a seguinte propriedade: a partir da sequência de letras e números, não é possível chegar ao número do cartão de crédito. No entanto, a partir do número do cartão, é fácil chegar nas letras e números. Essa propriedade garante que quem usa seu cartão será corretamente identificado, mas só a hash será exposta.

O governo brasileiro poderia adotar esta solução com o CPF. Bastaria transformá-lo em hash, e posteriormente apagar os CPFs da base. Cada hash passaria a ser um identificador único, permitindo cruzar informações e, na eventualidade de se identificar uma fraude, por exemplo, bastaria pedir à RFB que, para cada par de CPF e respectiva hash, associasse a quem pertence a hash associada à fraude. Assim, a identificação de uma pessoa pelo CPF continuaria inacessível para os servidores de outros órgãos e dependente da preservação do sigilo pelo servidor da Receita Federal.

Obviamente seriam necessários procedimentos para se rastrear todo esse processo e garantir que os registros não fossem apagados. Novamente, tecnologias como blockchain poderiam ser utilizadas para garantir a imutabilidade do rastreamento.


Privacidade diferencial

Outra estratégia possível, mais voltada para análise estatística de dados e mesmo compartilhamento com a sociedade, seria a utilização do que se chama privacidade diferencial. De forma simplificada, é introduzido um ruído (aleatório) nos dados para que uma consulta à base de dados não permita identificar uma pessoa, preservando a privacidade das pessoas.

Vejamos um exemplo para ilustrar essa abordagem. Digamos que quero saber as localidades onde ocorreram roubos a casas. Porém, se a polícia divulgar esse dado, ao cruzar com outras informações, posso identificar as vítimas. Por outro lado, se ela não disponibilizar nenhuma informação, não é possível fazer controle social nem análise sobre como tornar a ação policial mais efetiva. Com privacidade diferencial, a polícia poderia converter o endereço em latitude e longitude, adicionar um número aleatório pequeno à latitude e longitude, e transformar de volta em um endereço. As informações não seriam suficientes para identificar a vítima, porém o seriam para saber quais bairros têm maior incidência do crime, por exemplo.

A vantagem desta estratégia é que a privacidade pode ser quantificada e podemos comparar e dar transparência ao nível de proteção da privacidade que o governo dá para nossos dados. Além disso, permite de forma automática anonimizar dados com segurança e aumentar a transparência pública, ao mesmo tempo em que protege dados pessoais.

Essas duas estratégias – hash criptográfica e privacidade diferencial – mostram que o governo tem como aumentar a transparência e compartilhamento de dados entre órgãos, sem prejudicar a proteção de dados pessoais, ou até mesmo aumentando a proteção de dados em relação ao que temos hoje.

Técnicos especializados podem discutir os méritos dessas e outras abordagens para o problema. Meu propósito aqui foi mostrar que existem caminhos para reduzir os riscos para a sociedade e proporcionar os ganhos de eficiência e transparência que são necessários na era da informação.

Se tivesse consultado a sociedade civil, as empresas e a academia, que trabalham com essa questão, o governo federal poderia ter adotado uma solução mais robusta para um problema real. Esse é mais um exemplo de como a ampla participação é fundamental para políticas públicas mais efetivas.

Diretor-executivo da Transparência Brasil