Dataset de vagas dev na Catho (fev/2026) e como puxamos com a GeckoAPI
Quer testar? Acesse o dashboard e ganhe 100 créditos grátis para começar.
Ir para o DashboardPublicamos um dataset aberto com vagas dev da Catho (fev/2026) para a comunidade. A ideia é simples: dar visibilidade para quem quer estudar mercado, praticar análise de dados ou montar projetos de pesquisa.
Link do dataset (Kaggle): https://www.kaggle.com/datasets/geckoapi/vagas-dev-catho-fevereiro-2026
Como puxamos os dados com a GeckoAPI (sem entrar no script)
Usamos a GeckoAPI porque ela já entrega um JSON padronizado para dados de listagem (PLP) e detalhes (PDP) em um fluxo consistente:
- PLP (listagem): coleta as vagas a partir de filtros como cargo, modelo de trabalho e página.
- PDP (detalhe): para cada vaga, busca descrição, empresa, salário, benefícios e localização.
- Padronização: tudo vem no mesmo formato, o que facilita salvar em JSONL e analisar depois.
O resultado é um pipeline simples: listar -> detalhar -> salvar. Sem ficar brigando com HTML ou com mudanças de layout do site.
O que tem dentro do dataset
- JSONL (uma vaga por linha)
- Título, descrição, benefícios, salário (quando existe), localização, empresa, data de publicação
- Metadados para rastrear origem da busca (ex.: filtro e página)
Neste recorte, o dataset contém 1.383 anúncios (URLs únicas).
Alguns sinais que apareceram na análise
Sem forçar uma narrativa única, alguns dados chamaram atenção:
- Transparência salarial é baixa: só 33,4% informam salário.
- Remoto não domina: remoto 23,5%, presencial 29,0%, híbrido 1,3% (46,2% não identificado).
- Benefícios somem: 60,3% não listam benefícios.
- Confidencial ainda é comum: 10,9% das vagas escondem a empresa.
Isso não prova uma crise, mas sugere um mercado mais duro e menos transparente do que muita gente imagina.
Por que isso importa para quem é dev
Se você está buscando vaga, esses números ajudam a calibrar expectativa. Se você está liderando time ou recrutando, eles mostram onde a comunicação com o candidato ainda falha (salário, benefícios, clareza).
E se você curte dados: este é um dataset real para explorar, construir dashboards, testar NLP ou treinar modelos.
Quer usar o dataset ou repetir o processo?
O dataset está aberto no Kaggle:
https://www.kaggle.com/datasets/geckoapi/vagas-dev-catho-fevereiro-2026
Se quiser coletar novos recortes, a GeckoAPI já resolve a parte chata (extração e padronização). E você foca no que interessa: análise e produto.
Quer testar?
Acesse o dashboard e ganhe 100 créditos grátis para começar. Sem cartão de crédito.
Criar conta grátis