5 tendências de Data Science para 2021 | Digital Trends
Patricia Pampanelli, da NVIDIA, André Barbosa, do Quinto Andar e Haydée Svab da ASK-AR compartilham insights de Data Science para 2021.
Data Science foi apontada em primeiro lugar na lista de profissões em alta demanda para 2021, segundo o relatório do World Economic Forum. Afinal, ela lida com o que há de mais valioso atualmente: dados. Assim, profissionais dessa área precisam estar em constante atualização para encarar os desafios do mercado. Por isso, trouxemos neste artigo as 5 tendências de Data Science para 2021.
Os insights são apresentados por experts de Ciência de Dados no Brasil: Patricia Pampanelli, Solutions Architect na NVIDIA, André Barbosa, Data Scientist no QuintoAndar e Haydée Svab, Data Scientist e CEO da ASK-AR. Boa leitura.
1. Uso de Natural Language Processing - NLP
O aumento no uso de soluções que usam tecnologias de Processamento de Linguagem Natural (Natural Language Processing - NLP) é uma das tendências de Data Science apresentada para 2021.
Segundo Patricia Pampanelli, existe uma explosão do número de arquiteturas de rede de processamento natural. Desde o lançamento do BERT (Bidirectional Encoder Representations from Transformers), da Google, esses modelos vêm crescendo em tamanho e complexidade. Assim, é natural que, nos próximos anos, cada vez mais aplicações usem NLP.
“O BERT foi proposto em 2018 com 340 milhões de parâmetros e a gente já está na escala de centenas de bilhões de parâmetros. Tenho visto cada vez mais aplicações que envolvem não só modelos de Natural Language Understanding mas também modelos de reconhecimento de fala e Text to Speech (TTS). E nisso a gente fecha o pipeline dessas aplicações que partem de uma entrada de voz, reconhecem a voz e executem um tipo de tarefa. Dependendo da aplicação, o próprio retorno da tarefa também é em áudio.”
No Brasil, muitos desses modelos estão sendo colocados em produção e eles podem ser aplicados em produtos das mais diferentes indústrias, do mercado financeiro aos serviços de atendimento ao consumidor, passando por aplicações como Alexa e Siri.
Um dos principais desafios para o avanço de tecnologias NLP no Brasil, de acordo com Patrícia, é a construção desses modelos em português.
“Precisamos ter dados em volume para construir modelos de síntese de voz e reconhecimento de fala. Dando um exemplo, o Mozilla Common Voice tem cerca de 48 horas de dados de áudio anotados em português e em inglês tem mais de milhares de horas de gravação.”
A escassez de profissionais de Data Science é outro desafio. Para quem quer se especializar na área de NLP, Patrícia aponta a necessidade de focar em um nicho e de estudar as principais técnicas e modelos, entendendo a evolução dos modelos ao longo dos anos.
2. Criação de times de Machine Learning Operations
André Barbosa, que é Data Scientist no Quinto Andar, traz como tendência a criação de times dedicados para Machine Learning focados na operacionalização (Machine Learning Operations).
“Esse é o trabalho de garantir estabilidade de processos dentro da construção de modelos de AI. Para quem está acostumado com engenharia de software, é o que a gente chama de integra contínua, ou seja, ter testes que garantam que o software não vai quebrar quando o produto for para o ar.”
Aplicando ideias de produtização no ambiente de ML, André destaca que três processos são importantes:
-
processo de continuous delivery;
-
processo de integração contínua, que envolve uma série de testes unitários, integrados e testes de dados, porque o próprio dado precisa ter uma estabilidade;
-
treinamento de modelos de maneira automatizada.
“Toda essa frente de Machine Learning Office eu vejo que é o futuro e poucas empresas do Brasil já estão avançando nessa frente. No Quinto Andar, para cada produto de dados a gente desenvolve um modelo de inteligência artificial. Sendo uma empresa que escala, o time de cientistas de dados cresceu e hoje nós somos mais de 20. E precisamos garantir que a empresa tenha um processo de construção de produtos que seja estável para que seja possível escalar de forma simplificada.”
Adaptando o conceito de DevOps para MLOps (Machine Learning Operations), André explica que é possível ter o desenvolvimento de boas práticas no desenvolvimento em larga escala, ou seja, garantir uma melhoria contínua no produto sem afetar usuários finais.
3. Construção de feature stores
Mais uma tendência apresentada por André Barbosa é a construção de feature stores, que são modelos otimizados de bancos de dados, com foco em produtos que usam Machine Learning.
“A gente tem os bancos de dados tradicionais de negócio e a feature store é um banco especializado para os modelos de Machine Learning consumirem e esse banco é otimizado para ter baixa latência. Ele pode ser usado sempre que a gente precisar de um dado que vai ser aplicado em uma inferência online.”
André explica que, no Quinto Andar, a feature store é uma base e todos os dados que os modelos podem usar passam por ela. Assim, o dado é tratado de forma específica para não afetar o produto final.
“A gente pode garantir que tanto o dado que a gente treina quanto o dado que a gente coloca no ar é o mesmo. Quando ele é colocado no ar a latência é diferenciada e específica para esse caso.”
4. Atenção à explicabilidade de modelos com a LGPD
A Lei Geral de Proteção de Dados Pessoais - que entrou em vigor em setembro de 2020 - está na mira de profissionais de diferentes áreas e afeta também o trabalho de Data Scientists. Haydée Svab, da ASK-AR, traz como tendência de Data Science para 2021 a atenção à explicabilidade e interpretabilidade dos modelos que serão usados em produtos com inteligência artificial.
Haydée destaca que dois pontos relacionados à LGPD são importantes. Primeiro, a clareza e segurança sobre os riscos para o negócio.
“Com esse cenário jurídico mais definido, a gente consegue mensurar riscos melhor. Quem lidava com dado e falha e tinha um risco muito alto, quando a gente tem um cenário jurídico mais bem definido a gente também tem um risco menor associado.”
O outro ponto que merece muita atenção de cientistas de dados está ligado ao consentimento por parte de pessoas usuárias. Elas devem saber de antemão como seus dados serão usados, por isso, profissionais de Data Science precisam ter bem definidos a necessidade a e finalidade dos dados que estão sendo recolhidos.
“Isso muda a forma como a gente avalia os modelos. Essa avaliação é feita tradicionalmente por acurácia, testes e isso continua valendo, mas a gente precisa pensar no aspecto de explicabilidade do modelo, de interpretabilidade na hora de avaliar. E além disso, quem controla o dado, se for solicitado, tem que fornecer informações claras sobre os critérios e procedimentos que norteiam a decisão automatizada. Em modelos caixa preta, que tem difícil explicabilidade, isso começa a virar uma questão de risco de negócio.”
Reduzir os possíveis vieses dos algoritmos se torna ainda mais imperativo, já que pessoas usuárias podem contestar o tratamento de dados, dando início a um processo de auditoria por parte da autoridade nacional de proteção de dados. Nesses casos, a auditoria de algoritmos terá em vista a busca de aspectos discriminatórios no tratamento de dados.
“A forma como a gente faz nossos sets de verificação precisa partir da atenção de que não estamos tendo ou que estamos minimizando vieses - e como isso está sendo feito. A partir do momento que as pessoas assimilarem o que é consentimento, elas vão passar a assimilar que elas podem contestar uma decisão algorítmica. E aí a gente vai precisar, cada vez mais, ter interpretabilidade e explicabilidade dos modelos.”
5. Aumento da diversidade de skills nos times
Finalizando as tendências da Data Science para 2021, Haydée pontua que estamos chegando ao momento de ter times mais diversos em skills nas empresas, deixando de lado a mentalidade de “profissionais unicórnio” que dominam diferentes áreas.
“O mercado tem entendido que não existe a pessoa unicórnio em Ciência de Dados. Há pouco tempo, se buscava uma pessoa cientista de dados que soubesse tudo de matemática, tudo de programação e de negócio. E aí nós víamos times de cientistas de dados que, quando não eram só uma pessoa, eram muito enxutos.”
A formação de times de dados que com profissionais que se complementem em habilidades traz uma nova configuração para esse setor nas empresas. Ao mesmo tempo, abre portas para que pessoas cientistas de dados se destaquem pela especialização.
“Nós teremos a pessoa que entende mais de Machine Learning, a pessoa que vai fazer interface com negócio. E com isso vamos ter times mais diversos, tanto em habilidades quanto em identidades."
...
Achou interessante descobrir algumas tendências de Data Science para 2021? Te convidamos a assistir à discussão completa sobre tendências de Ciência de Dados, que aconteceu no evento Digital Trends, com mediação de Beatriz Yumi e Victor Morganti.
Você também pode ter o material completo com mais de 30 tendências de carreiras digitais para 2021. Faça o download abaixo.