• Português (Brasil) Português (Brasil)
  • English English
  • Español Español
Acessibilidade
Ir para o conteúdo (1/4) 1Ir para o menu (2/4) 2Ir para a busca (3/4) 3Ir para o rodapé (4/4) 4
Acesso Rápido
EmpresaInsightsPrivacidadeSuporteDownload e SoftwareImprensaContatoÁrea do clienteAcesso à informação Loja Serpro
Área do cliente
Serpro, impulsionado pelos próximos 60 anos
Provendo soluções inteligentes para transformação e inclusão digital
Redefinir Cookies
Serpro
Institucional
  • Quem somos
  • Marca Serpro
  • Iniciativas Sociais
  • Privacidade
  • Eventos
    • 3ª Semana Serpro de Privacidade e Proteção de Dados
    • Hackathon - Compras Governamentais
    • Hackathon Rede +Brasil
    • Desafio Fiscal Inovador
  • Governança
  • Ética e integridade
  • Acesso à informação
Soluções
  • Insights e notícias
  • Loja Serpro
  • Inovação aberta
Suporte
  • Ajuda ao cliente
  • Central de Serviços Serpro
  • Atendimento Gestão de Consignação
  • Transformação Digital da Justiça
  • Download & Software
    • Assinador digital
    • Certificado Digital
    • Emulador HOD
    • SAR - Acesso remoto
    • Drivers de token
  • Central de Ajuda
Sustentabilidade
  • ESG Serpro
  • Conheça nosso trabalho
  • Objetivos de Desenvolvimento Sustentável
  • Jornada Ser ESG
  • Notícias e artigos
Contato
  • Fale conosco
  • Imprensa
  • Endereços
  • Ouvidoria
  • Fala BR
Consultas públicas Prestação de Contas
Redes Sociais
Serpro Sede - SGAN Quadra 601 Módulo "V" Brasília - DF CEP: 70836-900
Horário de atendimento: 8h às 18h
Você está aqui: Página Inicial  ›  Menu  ›  Notícias  ›  Notícias 2018  ›  Quando não é preciso preencher as lacunas
Info

Notícias

notícias

Artigo

Tratamento de Dados

Quando não é preciso preencher as lacunas

Dados faltantes podem ser um problema sério em grandes bancos de dados, mas é possível tratá-los com ferramentas avançadas de análise
Missing Data.jpg
  • Facebook
  • Linkedin
  • Twitter
  • Whatsapp
por Comunicação Institucional do Serpro — 20 de abril de 2018

Uma das principais dificuldades relacionadas ao uso de grandes bancos de dados reside no fato de que, muitas vezes, uma parcela das informações não pode ser utilizada. Isso ocorre por dois motivos principais: dados cadastrados de forma incorreta ou inconsistências acumuladas durante a migração do dado por diferentes sistemas, ao longo do seu ciclo de vida. É um problema recorrente em bancos de dados governamentais e privados em todo o mundo, e tal situação representa um risco para os seus consumidores. No entanto, é possível contornar essa questão utilizando técnicas computacionais e estatísticas.

Considerado uma especialização da mineração de dados, o tratamento de dados faltantes, ou “missing data”, em inglês, é objeto de estudos da estatística, que incorporou melhorias decorrentes dos avanços na ciência da computação. Entre as soluções adotadas estão a imputação de valores, os algoritmos de expectativa e maximização, o apagamento parcial de dados, a análise completa de dados (utilizando-se muitas vezes de ferramentas de inteligência artificial neste processo) e a interpolação.

Bancos de dados governamentais são geralmente trabalhados para que ocorrências de dados faltantes sejam minimizadas. O analista da Superintendência de Suporte e Dados do Serpro, Ednylton Franzosi, explica que esta característica é considerada uma das principais vantagens do uso do conceito de lago de dados. Segundo ele, esta tecnologia permite que “clientes e usuários possam conhecer os dados brutos presentes nos bancos da forma como estão nos sistemas fontes; aplicar suas aferições; tirar suas conclusões de análise mesmo que parciais; e mensurar custos para aplicar processos de melhoria, que podem vir depois da primeira visão fornecida pelos ambientes”.

Ednylton ainda considera que existem ferramentas nativas a lagos de dados que cumprem, de forma satisfatória, funções de indexação e busca (como o Elasticsearch), análise de dados (Pentaho), ciência de dados (RapidMiner) e ferramentas mais robustas (como o R e o Impala). No entanto, ele lembra que todo procedimento de tratamento de dados, nos casos de informações governamentais brasileiras tornadas disponíveis para outros órgãos públicos, deve ser feita de forma paralela à fonte original de informações, para evitar o surgimento de inconsistências nas bases de dados originais.

Para os órgãos do Sisp

O arcabouço de metodologias de enfrentamento a este problema é amplo, mas não é uma necessidade corrente no Serpro, dada a confiabilidade das informações de posse da empresa. De acordo com Rodrigo Hjort, analista da Coordenação Estratégica de Inovação e Governança de TI do Serpro, o GovData, oferece dados que podem ser tratados em paralelo à fonte original para órgãos públicos. “Há uma higienização das informações e nós não temos necessidade de tratar missing data”, diz.

Embora poderoso, o GovData tem como objetivo oferecer aos clientes que tenham acesso ao Sisp (Sistema de Administração dos Recursos de Tecnologia da Informação do Governo Federal, que gere os recursos de informação da administração pública federal) uma chance de conseguir dados de forma rápida, sem ter maiores preocupações com dados sujos. Segundo Ednylton, trata-se de uma estratégia de “data-mart”, onde o cliente paga para realizar pesquisas nas bases de dados disponíveis no GovData.

Já no Datalake RFB, que é hospedado dentro do Serpro, é possível, por parte dos técnicos da Receita Federal do Brasil, o uso de avançadas ferramentas de análise e ciência de dados dentro do ambiente de data lake disponibilizado a eles. Uma parcela destas informações pode ser compartilhada com outros órgãos públicos, ou ainda com o público em geral. Ednylton explica que a diferença entre o GovData e o Datalake RFB é quase como a de comércio por varejo e atacado, respectivamente.

Para o setor privado

Outras soluções de dados fornecidas pelo Serpro, como é o caso do DataValid e das APIs, não exigem tanto “quebra-cabeça” de seus clientes, geralmente empresas privadas. Alfredo Dias, analista da Divisão de Gestão de Produtos de Informação da empresa, ressalta a integridade de um banco de dados de mais de 230 milhões de registros como o da Receita Federal, base das APIs CPF, CNPJ e Nfe. “Missing data é praticamente inexistente, dada a confiabilidade dos dados”, afirma.

Já no caso do DataValid, o analista da Divisão de Produtos em Nuvem, Daniel Ribeiro, reforça que, dada a natureza do produto, não há a possibilidade de haverem dados faltantes. “O dado que entregamos ao cliente é um arquivo processado com o resultado das validações dos campos que nos foram encaminhados. O Datavalid não devolve o dado bruto”, finaliza, ressaltando que o arquivo fornecido ao cliente é fechado e não permite análise dos dados ali contidos de forma bruta.

Contato

  • Quero Adquirir uma Solução
  • Problemas com uma Solução
  • Assessoria de Imprensa
  • Ouvidoria
  • Outro Assunto
Serpro
Soluções
Loja Serpro
Inovação aberta
Insights e Notícias
Suporte
Ajuda ao cliente
Central de Ajuda
Central de Serviços
Consignatárias
Transformação Digital da Justiça
Downloads
Institucional
Quem Somos
Marca Serpro
Iniciativas Sociais – Programa Agora
Governança
Ética e Integridade
Acesso à Informação
Privacidade
Contato
Endereços
Fale conosco
Imprensa
Ouvidoria
Fala BR
Empregados
Intranet
PAS Serpro
Plano Odontológico
SOS RS
Carreira
SUSTENTABILIDADE
ESG
Jornada Ser ESG
Objetivos de desenvolvimento Sustentável
Redes Sociais
Acesso àInformação
Serpro - Ministério da Fazenda - Governo Federal
Serpro Sede - SGAN Quadra 601 Módulo "V" Brasília - DF CEP: 70836-900
Horário de atendimento: 8h às 18h

Doormat

Soluções

Por Público
Por Linha de Negócio
Proteção de Dados

Suporte

Central de Ajuda
Central de Serviços
Acesso Remoto (SAR)
Consignatários
Downloads

Institucional

Quem Somos
Integridade
Transparência
Carreiras
Simplifique
Marca Serpro

Contato

Contatos
Imprensa

Empregado

Intra Serpro
PAS Serpro
Plano Odontológico