Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the astra-sites domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/statplace/public_html/site/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the jetpack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/statplace/public_html/site/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wpforms-lite domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/statplace/public_html/site/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wordpress-seo domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/statplace/public_html/site/wp-includes/functions.php on line 6114

Notice: A função _load_textdomain_just_in_time foi chamada incorretamente. O carregamento da tradução para o domínio astra foi ativado muito cedo. Isso geralmente é um indicador de que algum código no plugin ou tema está sendo executado muito cedo. As traduções devem ser carregadas na ação init ou mais tarde. Leia como Depurar o WordPress para mais informações. (Esta mensagem foi adicionada na versão 6.7.0.) in /home/statplace/public_html/site/wp-includes/functions.php on line 6114

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893

Warning: Cannot modify header information - headers already sent by (output started at /home/statplace/public_html/site/wp-includes/functions.php:6114) in /home/statplace/public_html/site/wp-includes/rest-api/class-wp-rest-server.php on line 1893
{"id":27773,"date":"2024-09-17T17:03:03","date_gmt":"2024-09-17T17:03:03","guid":{"rendered":"https:\/\/statplace.com.br\/?p=27773"},"modified":"2025-02-26T14:57:01","modified_gmt":"2025-02-26T14:57:01","slug":"analise-de-requisitos-para-vagas-de-data-science","status":"publish","type":"post","link":"https:\/\/site.statplace.com.br\/blog\/analise-de-requisitos-para-vagas-de-data-science\/","title":{"rendered":"An\u00e1lise de Requisitos para Vagas de Data Science"},"content":{"rendered":"\n

Artigo escrito em colabora\u00e7\u00e3o com Rodolfo Helfenstein<\/strong><\/h3>\n\n\n\n

Um Primeiro Projeto de Carreira<\/h2>\n\n\n\n

Todos t\u00eam que come\u00e7ar em algum lugar, certo? Recentemente, Rodolfo decidiu seguir a carreira de Cientista de Dados e vem estudando essa \u00e1rea com afinco. Embora ele j\u00e1 tenha experi\u00eancia na \u00e1rea de dados, por meio de uma bolsa de inicia\u00e7\u00e3o cient\u00edfica e de um est\u00e1gio, ainda sente lacunas em seu conhecimento, especialmente em ferramentas como modelos de machine learning<\/em> e conceitos estat\u00edsticos. Essas habilidades s\u00e3o cruciais para sua busca pela primeira vaga de emprego como Cientista de Dados j\u00fanior.<\/p>\n\n\n\n

Por isso, Rodolfo decidiu criar seu portf\u00f3lio de projetos, onde documenta o processo de desenvolvimento de cada trabalho, ao mesmo tempo em que aprofunda seus conhecimentos e estuda os requisitos exigidos para as vagas na \u00e1rea de Ci\u00eancia de Dados. Quem busca uma oportunidade como Cientista de Dados pode entender melhor as exig\u00eancias do mercado e aprofundar seus estudos realizando uma an\u00e1lise das vagas dispon\u00edveis no LinkedIn.<\/p>\n\n\n\n

A primeira etapa desse projeto envolve a compreens\u00e3o de como extrair dados de vagas para Cientista de Dados no LinkedIn. Para isso, Rodolfo optou por utilizar web scraping como m\u00e9todo de estudo, visando coletar e analisar essas informa\u00e7\u00f5es. Ele escolheu Python como a linguagem de programa\u00e7\u00e3o, tanto por sua familiaridade com ela quanto por sua ampla aplica\u00e7\u00e3o no tratamento e visualiza\u00e7\u00e3o de dados. Al\u00e9m disso, o Python oferece bibliotecas poderosas para web scraping, como o Selenium. No entanto, j\u00e1 que ele extrairia dados de uma p\u00e1gina web, precisou aprender o b\u00e1sico de HTML para identificar e buscar as informa\u00e7\u00f5es no c\u00f3digo-fonte usando XPath.<\/p>\n\n\n\n

\"Print
Informa\u00e7\u00f5es da vaga a serem coletadas e sua codifica\u00e7\u00e3o<\/figcaption><\/figure>\n\n\n\n

Coleta de Informa\u00e7\u00f5es das Vagas e Seus Desafios<\/strong><\/h2>\n\n\n\n

O primeiro problema encontrado ao estudar como extrair os dados da descri\u00e7\u00e3o das vagas foi a diferen\u00e7a entre o c\u00f3digo HTML inspecionado pelo navegador e o HTML lido pela biblioteca. Embora ambas as estruturas contenham as mesmas informa\u00e7\u00f5es, elas possuem diverg\u00eancias nos tag-names. Assim, foi necess\u00e1rio visualizar o c\u00f3digo da p\u00e1gina por meio do pr\u00f3prio web scraping<\/em> para extrair as informa\u00e7\u00f5es necess\u00e1rias.<\/p>\n\n\n\n

Outro problema enfrentado foi que, ao pesquisar por vagas de Ci\u00eancia de Dados no Brasil, a p\u00e1gina de pesquisa continha apenas a descri\u00e7\u00e3o da primeira vaga, enquanto as demais vagas apresentavam apenas links para suas descri\u00e7\u00f5es. Dessa forma, foi necess\u00e1rio programar o script para percorrer toda a p\u00e1gina e coletar todos os links de cada vaga. Como a p\u00e1gina \u00e9 otimizada e existem aproximadamente 1000 vagas para essa \u00e1rea no Brasil, a p\u00e1gina exibe um n\u00famero limitado de vagas. Por isso, foi preciso que o script rolasse a p\u00e1gina at\u00e9 o final e clicasse no bot\u00e3o para mostrar mais vagas.<\/p>\n\n\n\n

Ap\u00f3s coletar as URLs de cada vaga, Rodolfo p\u00f4de finalmente extrair a descri\u00e7\u00e3o de cada uma. Como o objetivo \u00e9 analisar os requisitos mais comuns das vagas de Ci\u00eancia de Dados, ele criou um dicion\u00e1rio de palavras-chave que correspondem \u00e0s habilidades e conhecimentos comumente exigidos na profiss\u00e3o, como linguagens de programa\u00e7\u00e3o (Python, R, C\/C++, SQL, Scala), ferramentas de visualiza\u00e7\u00e3o (Tableau, QlikView, Power BI), armazenamento em nuvem (AWS, Redshift, Azure), entre outros.<\/p>\n\n\n\n

Top 20 Requisitos para Vagas de Cientista de Dados<\/strong><\/h2>\n\n\n\n

A figura abaixo apresenta os resultados dos requisitos mais solicitados em vagas de Cientista de Dados e semelhantes.<\/p>\n\n\n\n

\"A<\/figure>\n\n\n\n

Como era de se esperar, SQL e Python foram as linguagens mais requisitadas<\/strong>, sendo mencionadas em 94 e 62 vagas, respectivamente. Isso n\u00e3o surpreende, visto que s\u00e3o amplamente utilizadas no trabalho com dados. Embora n\u00e3o seja uma linguagem de programa\u00e7\u00e3o propriamente dita (o Excel utiliza VBA como linguagem de programa\u00e7\u00e3o, mencionada apenas 7 vezes), o Excel foi muito requisitado. J\u00e1 a linguagem R aparece mais para o final do ranking. Outras linguagens, como Scala e C\/C++, foram pouco mencionadas, a ponto de n\u00e3o aparecerem na lista. A compara\u00e7\u00e3o das linguagens de programa\u00e7\u00e3o mais requisitadas \u00e9 apresentada na figura a seguir.<\/p>\n\n\n\n

\"a
Linguagens de programa\u00e7\u00e3o mais requisitadas<\/figcaption><\/figure>\n\n\n\n

An\u00e1lise das Ferramentas e Habilidades Requisitadas<\/strong><\/h2>\n\n\n\n

Uma grande surpresa foi descobrir que o ingl\u00eas \u00e9 a segunda habilidade mais requisitada<\/strong>, ao lado de Python. Isso pode ser explicado pelo fato de muitas empresas serem multinacionais ou atenderem clientes globalmente, o que torna o dom\u00ednio da l\u00edngua inglesa essencial na \u00e1rea de Ci\u00eancia de Dados. Ferramentas de visualiza\u00e7\u00e3o de dados, como Power BI (com 48 men\u00e7\u00f5es) e Tableau (com 18 men\u00e7\u00f5es), tamb\u00e9m se destacaram e devem ser levadas em considera\u00e7\u00e3o, j\u00e1 que a visualiza\u00e7\u00e3o \u00e9 crucial para facilitar a interpreta\u00e7\u00e3o e o entendimento dos dados.<\/p>\n\n\n\n

Considera\u00e7\u00f5es Finais<\/strong><\/h2>\n\n\n\n

Alguns pontos importantes a serem ressaltados nesta an\u00e1lise s\u00e3o:<\/p>\n\n\n\n