Taverna /dev/All

Data science: quem é você?

Data science ou ciência de dados: quem é você? Qual a melhor definição para esta área?

Quem é o cientista de dados? E pra quem quiser começar, quais os caminhos a serem seguidos?

1 Curtida

Sou o João, atualmente cuido da engenharia de dados aqui no pag! e em breve vou p/ área de ciência de dados.

Posso dizer que com o hype de empresas data-driven essa área veio na nascer, curiosamente, sem pessoas da computação. Em grande maioria são pessoas com Mestrado e Doutorado em Física ou Química por conta da bagagem de análise numerica. Hoje, já foi invadida até por jornalistas. Plataformas de ensido e bootcamp estão em alta p/ gerar gente p/ esse mercado.

O cientista de dados é a pessoa que faz a ponte entre os dados que a empresa tem e as metas de negócio da minha opinião. Então, acho o termo data-driven errado pois dado todo mundo pode ter fácil, a questão é ter informação!

Minha sugestão de começar depende de como vc gosta de aprender, Udacity, DataCamp, Data Academy e outros podem servir muito bem p/ o começo mas depois tem que cair nos clássicos como Norvig e Bishop.

1 Curtida

o cientista de dados é um DBA gourmet?

1 Curtida

não hahahhaha

DBA faz SQL e mantém o banco em produção

Cientista usa o banco e outras fontes diversas p/ criar uma IA, um sistema de recomendação, segmentação de clientes por features e por ai vai, depende do negócio q está trabalhando.

Aqui no pag! por ser um fintech atuamos prevendo o risco de crédito da pessoa, detectando fraude em compras, lavagem de dinheiro e por ai vai

então o cientista de dados seria uma evolução do que chamávamos até então de analista de dados?

acho q sim, a áre em si é bem dividida aqui na empresa somos: engenheiro de dados, cientista de dados e analista de dados.

  • eng de dados: cuida da arquitetura e implantação da infra de dados
  • cie de dados: criar os modelos de machine learning p/ segmentar dados ou fazer previsões, por ex
  • analista dados: entender e analisar o q passou

e ainda dentro de engenheir de dados tem divisão

estamos entrando nesta área de ciência de dados aqui na empresa.

É interessante por que o que observo é a mudança de nomes, mas não a inclusão de novidades tão grandes assim.

Por exemplo: o engenheiro de dados. Lembra muito o DBA, o cara de infra mesmo.

O analista de dados, por exemplo, acaba se misturando um pouco com o cientista de dados neste quesito e, se formos olhar com atenção, nada mais é que o trabalho do estatístico, não?

já tem meme disso

1 Curtida

me contrata :v

Acho que sim. Além de analisar os dados, ele cria os modelos de ML e usa pra gerar gráficos e outras funcionalidades. Assim ele tende a “prever” coisas que podem acontecer e poupar a empresa de prejuízo. É um tipo de especulação baseado em informações.

1 Curtida

Estou literalmente voltando para a faculdade este ano: tô revendo tudo o que vi de matemática e estatística.

Confesso que está sendo uma experiência muito interessante. Principalmente no que diz respeito a esta nova nomenclatura que estão dando para o que já existia kkkkk

Foi excelente a ideia de criar esta nova seção da taverna

1 Curtida

manda cv, temos vagas hehehe

Ia comentar, mas deixei o celular de lado e, atualizando a página, já disseram grande parte.

De alguns anos para cá, uma série de técnicas já existentes passaram a ser mais popularmente difundidas e aperfeiçoadas, puxadas pelos gigantes como Google, Facebook, e outros, que foram capazes de acumular dados dos usuários a um nível até então nunca visto e desenvolver formas de utilizá-los.

Algoritmos de classificação, segmentação, análise de sentimentos, recomendação, baseados em técnicas de aprendizado de máquina, tornaram-se carne de vaca e agora toda empresa quer segmentar seus clientes, direcionar anúncios, recomendar um produto na tela baseado em um modelo preditivo treinado a partir do histórico de visitas no site, tentativas de recomendação bem ou mal-sucedidas.

Primeiro essas empresas desenvolveram a infraestrutura tecnológica para processar grandes volumes de dados de forma distribuída, dando origem ao termo “big data” e, claro, gerando um buzz em volta do termo.

Há uma atualização de nomenclatura, mais por motivos mercadológicos do que práticos ou de evolução do conhecimento, de técnicas como computação distribuída, aprendizado de máquina, é mesmo Estatística.

Data science é mais um nome de moda para: vamos juntar uma infra tecnológica e o raciocínio do matemático/estatístico, e vender produtos e cursos. Claro, hoje os negócios estão mais orientados por dados, sem nenhuma dúvida, mas eu não acredito que haja um “cientista” que seja capaz de tudo. Bons projetos, a meu ver, juntam pessoal com o conhecimento teórico e o da infra tecnológica.

1 Curtida

Apesar de nos últimos 8 anos eu ter atuado ampla e profundamente com Engenharia de Software, a Ciência de Dados é uma área que simpatizo bastante, na qual fiz grande interseção durante mestrado lá em 2009. Atualmente estou concluindo uma especialização lato sensu nesse tema, de cunho mais prático, com incentivo da empresa que trabalho.

Quando eu me formei em Ciência da Computação, eu costumava usar deliberadamente o título de Cientista da Computação. Soava pomposo e massageava meu ego. Meu pai, doutor em engenharia, me alertava: cientista é só quem produz ciência. Algum tempo depois tive que dar o braço a torcer para o velho.

Hoje vejo que o mesmo glamour e erro está ocorrendo na Ciência de Dados. Primeiramente escolheram esse nome para re-batizar uma tematica que há algumas décadas já era abordada pela turma da Mineração de Dados (o CRISP-DM é de 1996, e a linguagem R também é mais ou menos dessa época), além do que grande parte do ferramental de análise de dados já era estado da arte da turma da Estatística (diga-se de passagem, julgo ser a maior habilidade demandada para triunfar nesse mercado) desde muito tempo atrás.

Em conjunto com esse auê todo, naturalmente cunharam o rótulo Cientista de Dados, que na maioria dos casos de cientista não tem nada. Mas super valoriza o passe, e segundo a grande mídia “é uma profissão sexy”. Mas enfim, a menos que a pessoa esteja realmente avançando a fronteira do saber, publicando avanços científicos, desenvolvendo novos métodos e técnicas e valiando-os junto à comunidade científica, como já dizia meu pai, não se trata de um cientista (aceita que dói menos).

Não dá para negar que, um bom “Cientista de Dados” estará sempre de olho na comunidade científica e de fato consumindo e aplicando avanços recentes. Não obstante há a presença de pesquisadores e doutores migrando da academia para a industria para atuar nessa área, pela intimidade que eles tem no ramo. Mas como para o mercado muitas vezes vale muito mais o “bom o suficiente” feito com agilidade que o “perfeito” que nunca fica pronto e demanda muito recurso, o que tenho visto por aí nas palestras, blogs e cases dos entusiastas da área é apenas uma molecada chafurdando no Pandas, ScikitLearn e Matplotlib/Seaborn em seus notebooks do Jupyter (estou exagerando para contrapor, naturalmente, hehehehe).

De qualquer forma, o momento e a demanda de mercado são reais, seja lá o nome que se dê. Uma ótima oportunidade para re-direcionar a carreira se você tem simpatia pelo assunto.

1 Curtida

itexto