• Português (Brasil) Português (Brasil)
  • English English
  • Español Español
Acessibilidade
Ir para o conteúdo (1/4) 1Ir para o menu (2/4) 2Ir para a busca (3/4) 3Ir para o rodapé (4/4) 4
Acesso Rápido
EmpresaInsightsPrivacidadeSuporteDownload e SoftwareImprensaContatoÁrea do clienteAcesso à informação Loja Serpro
Área do cliente
Serpro, impulsionado pelos próximos 60 anos
Provendo soluções inteligentes para transformação e inclusão digital
Redefinir Cookies
Serpro
Institucional
  • Quem somos
  • Marca Serpro
  • Iniciativas Sociais
  • Privacidade
  • Eventos
    • 3ª Semana Serpro de Privacidade e Proteção de Dados
    • Hackathon - Compras Governamentais
    • Hackathon Rede +Brasil
    • Desafio Fiscal Inovador
  • Governança
  • Ética e integridade
  • Acesso à informação
Soluções
  • Insights e notícias
  • Loja Serpro
  • Inovação aberta
Suporte
  • Ajuda ao cliente
  • Central de Serviços Serpro
  • Atendimento Gestão de Consignação
  • Transformação Digital da Justiça
  • Download & Software
    • Assinador digital
    • Certificado Digital
    • Emulador HOD
    • SAR - Acesso remoto
    • Drivers de token
  • Central de Ajuda
Sustentabilidade
  • ESG Serpro
  • Conheça nosso trabalho
  • Objetivos de Desenvolvimento Sustentável
  • Jornada Ser ESG
  • Notícias e artigos
Contato
  • Fale conosco
  • Imprensa
  • Endereços
  • Ouvidoria
  • Fala BR
Consultas públicas Prestação de Contas
Redes Sociais
Serpro Sede - SGAN Quadra 601 Módulo "V" Brasília - DF CEP: 70836-900
Horário de atendimento: 8h às 18h
Você está aqui: Página Inicial  ›  Menu  ›  Notícias  ›  Noticias 2017  ›  Os dados estão em toda a parte
Info

Notícias

notícias

Artigo

Interdisciplinaridade

Os dados estão em toda a parte

O que é ciência de dados? Qual o perfil e as competências do cientista envolvido nesse novo paradigma?
  • Facebook
  • Linkedin
  • Twitter
  • Whatsapp
por Sérgio Mariano Dias, com colaboração de Gustavo Torres e Marcelo Pita, da divisão de Soluções Analíticas no Data Lake — 11 de dezembro de 2017

O "quarto paradigma" da ciência [1], a profissão mais "sexy" do século 21 [2], uma nova buzz word! A ciência de dados emerge do fato de os dados estarem em toda parte. Dados provenientes de interações sociais, governo eletrônico, atividades empresariais nos mais diversos setores, conhecimento científico em biologia, química etc., estão sendo gerados continuamente, e em enorme quantidade, todos os dias. Existe um volume tão grande de dados que é cada vez mais difícil localizar e extrair o conhecimento do qual se necessite.

A partir da necessidade de análise desse emaranhado de dados, surgiu uma "nova" área tecnológica, a chamada ciência de dados. De forma interdisciplinar, ela faz uso de estatística, matemática, programação, inteligência artificial, aprendizado de máquina, mineração de dados e outras tantas técnicas para extração de conhecimento de bases de dados. Lidando com dados estruturados e não estruturados, é uma área que compreende todos os aspectos relacionados à limpeza, preparação e análise para obtenção de insights e conhecimentos necessários para tomada de decisão baseada em evidência. Ademais, plataformas de ciências de dados devem estar preparadas para, potencialmente, lidar com grandes volumes de dados. Note que, apesar do termo ciência de dados ser relativamente novo, as atividades executadas pelo "cientista de dados" são bastante antigas [3], obviamente respeitadas as diferenças históricas no que diz respeito às necessidades atuais de big data (volume, variedade, veracidade, velocidade e valor).

Mas quem é o cientista de dados?

Josh Wills, em 2012, à época diretor de engenharia de dados na Cloudera, publicou um tweet bem humorado definindo o cientista de dados, o que representava (e ainda representa) o senso comum a respeito deste profissional: "Data Scientist (n.): Person who is better at statistics than any software engineer and better at software engineering than any statistician". Em português: "Cientista de dados (subst.): Pessoa que é melhor em estatística do que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico". Em certo sentido, Josh estava certo, na visão prática de um executivo. Porém, de lá para cá, as habilidades requeridas para um cientista de dados começaram a ficar mais claras.

A Figura 1 ilustra as competências esperadas para a realização de ciência de dados, quais sejam, ciência da computação, matemática e negócio. Note que o domínio do negócio e as habilidades em ciências da computação permitem ao cientista de dados realizar o processamento de grandes volumes de dados. De forma similar, o conhecimento em ciência da computação e matemática permitem ao cientista de dados trabalhar com aprendizado de máquina. Por último, o conhecimento em matemática e o domínio do negócio permitem ao profissional aplicar técnicas de estatística para análise dos dados. Como interseção dessas diferentes áreas do conhecimento tem-se o cientista de dados.

Domínios de conhecimento da Ciência de Dados

Na prática, raramente (diga-se: "nunca") encontramos um profissional que domine todas essas habilidades em profundidade. Desta forma, projetos em ciência de dados são executados por equipes interdisciplinares, nas quais diferentes papéis dominam, em maior profundidade, determinado assunto. Entretanto, faz-se necessário o conhecimento das ferramentas, técnicas e tecnologias que permeiam todas as áreas. Tomemos como exemplo o conhecimento em estatística para um cientista de dados com formação primária em ciência da computação. O ferramental estatístico permite a comparação de diferentes modelos concebidos para determinado problema em análise. De forma semelhante, o conhecimento em estatística proporciona ao cientista de dados com ênfase no domínio do negócio argumentar, com um índice de confiança, que determinada ação baseada em evidência pode ser adotada.

Posturas básicas de um cientista de dados

Cientistas de dados devem ter um entendimento do domínio do problema (negócio), além de saber aplicar práticas de gerenciamento de dados. Também devem desenvolver o raciocínio analítico sob diferentes perspectivas e classes de problemas para a formulação de questões e hipóteses apropriadas em ciência de dados. Outros saberes relevantes envolvem a aplicação de técnicas e ferramentas e a validação dos modelos de análise construídos. Por fim, acrescente-se a postura de propor, documentar e adaptar processos de decisão em conformidade com os modelos concebidos.

Habilidades técnicas requeridas por um cientista de dados

Destaca-se o conhecimento de lógica de programação e proficiência em alguma linguagem -- a habilidade de programação é fundamental para este cientista. Ademais, dominar linguagens de programação como R, Python, Julia, Scala, C, C++ e/ou Java é essencial.

Dentre as diversas linguagens de programação disponíveis, sem dúvidas, duas se destacam. A primeira é Python, linguagem de programação de uso geral, que possui diversas bibliotecas para ciência de dados. A segunda é R, uma linguagem de programação estatística. R possui a maior variedade de técnicas, está em constante evolução e, finalmente, encontra-se disponível nas principais soluções comerciais para análise de dados (SAS, IBM SPSS, Microstrategy, Rapidminer, Knime etc.).

Não podemos esquecer ainda o âmbito do armazenamento e processamento de grandes volumes de dados. Essencialmente, a ciência de dados lida com dados organizados em diferentes formatos e em grande quantidade. Neste cenário, o domínio de algumas tecnologias é essencial. Dentre elas destacamos: HDFS, Hadoop, Hive, Impala, Spark, Mahout.

Processos Executados pelo Cientista de Dados

Processo de modelagem

Cientistas de dados lidam com grandes volumes de dados para conceber modelos matemáticos que expressam comportamentos presentes nos dados. A figura 2 ilustra esse processo [4]. Nos quadrantes tem-se modelos, algoritmos, sistemas e aplicações. Nos eixos relevância, expressividade dos modelos, utilidade dos padrões e escalabilidade e eficiência. Partindo da necessidade de uma aplicação (demanda de negócio) gera-se um modelo. Para conceber o modelo seleciona-se um algoritmo, o qual resulta em um sistema e finalmente uma aplicação.

O processo de modelagem é cíclico e cada interação aumenta a qualidade dos resultados. A partir da concepção de novos modelos e a escolha de algoritmos eficientes, melhora-se a expressividade dos modelos. Os algoritmos aplicados aos sistemas melhora a utilidade dos padrões (expressa um comportamento de maior valor para o negócio). Sistemas e aplicações mais elaborados incrementam a escalabilidade e eficiência. Por último, os melhores modelos e aplicações proporcionam maior relevância aos resultados apresentados.

No quadrante aplicações, um dos usos mais destacados são os de incorporação de modelos de análise aos sistemas tradicionais (embedded analytics) e inteligência artificial na construção de plataformas digitais, tais como: painéis e visualizações de dados em gráficos que exibem métricas de desempenho e relatórios com informações tabulares, autoatendimento e consultas ad hoc, funcionalidades interativas em dispositivos móveis, sistemas de recomendação, sistemas de reputação, dentre outros.

Conclusões

Apontada como uma das 10 profissões mais requisitadas em 2017, a ciência de dados tem ganhado destaque nos últimos anos. Este artigo apresentou o perfil e competências necessárias para os profissionais que almejam atuar nessa área tecnológica. Além disso, apresentou os processos executados por esses profissionais. Por último, é importante destacar que tudo sobre ciência de dados está em constante mudança graças ao impacto da tecnologia na capacidade de analisar grandes volumes de dados.

Referências

1. Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4
2. Data Scientist: The Sexiest Job of the 21st Century, https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century - Último acesso em Novembro de 2017.
3. A Very Short History Of Data Science – Forbes, www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/ - Último acesso em Janeiro de 2017.
4. Notas de aula da disciplina Mineração de Dados, ministrada pelo professor Wagner Meira no programa de pós-graduação em ciência da computação da Universidade Federal de Minas Gerais.

__________________________________________________________________________

Sergio Mariano
Sérgio Mariano Dias
É Doutor (2016) e Mestre (2010) em Ciência da Computação pela UFMG e Bacharel em Ciência da Computação pela PUC Minas (2007). Atualmente, trabalha na "Divisão de Soluções Analíticas no Data Lake", como cientista de dados, e no programa de pós-graduação em informática da PUC Minas, como pesquisador em pós-doutorado no tema ciência de dados. Interessado em pesquisa aplicada, gosta de aprender e integrar governo, sociedade e indústria. Website: http://sergiomdias.com


__________________________________________________________________________

Dados de Governo

Conheça a plataforma de APIs do Serpro, solução para consumo de dados governamentais diretamente das bases da empresa guardiã desse conteúdo. A plataforma oferece rapidez, segurança e confiabilidade, garantindo a exibição de dados atualizados em tempo real. Acesse: https://servicos.serpro.gov.br/api-serpro/

Contato

  • Quero Adquirir uma Solução
  • Problemas com uma Solução
  • Assessoria de Imprensa
  • Ouvidoria
  • Outro Assunto
Serpro
Soluções
Loja Serpro
Inovação aberta
Insights e Notícias
Suporte
Ajuda ao cliente
Central de Ajuda
Central de Serviços
Consignatárias
Transformação Digital da Justiça
Downloads
Institucional
Quem Somos
Marca Serpro
Iniciativas Sociais – Programa Agora
Governança
Ética e Integridade
Acesso à Informação
Privacidade
Contato
Endereços
Fale conosco
Imprensa
Ouvidoria
Fala BR
Empregados
Intranet
PAS Serpro
Plano Odontológico
SOS RS
Carreira
SUSTENTABILIDADE
ESG
Jornada Ser ESG
Objetivos de desenvolvimento Sustentável
Redes Sociais
Acesso àInformação
Serpro - Ministério da Fazenda - Governo Federal
Serpro Sede - SGAN Quadra 601 Módulo "V" Brasília - DF CEP: 70836-900
Horário de atendimento: 8h às 18h

Doormat

Soluções

Por Público
Por Linha de Negócio
Proteção de Dados

Suporte

Central de Ajuda
Central de Serviços
Acesso Remoto (SAR)
Consignatários
Downloads

Institucional

Quem Somos
Integridade
Transparência
Carreiras
Simplifique
Marca Serpro

Contato

Contatos
Imprensa

Empregado

Intra Serpro
PAS Serpro
Plano Odontológico