Para todos aqueles que gostam de estudar o que fazem, recomendamos esta série fantástica (apenas em inglês) produzida pelo cientista de dados Ben G Weber. Segue trecho do post introdutório, com os links para as postagens do autor:
“Recentemente, mudei de setor e me juntei a uma empresa de startups, na qual sou responsável por criar uma disciplina de ciência de dados. Embora já tivéssemos um pipeline sólido de dados quando eu entrei, não tínhamos processos para análises reproduzíveis, ampliação de modelos e realização de experimentos. O objetivo desta série de posts é fornecer uma visão geral de como criar uma plataforma de dados científicos a partir do zero para uma startup, fornecendo exemplos reais usando o Google Cloud Platform (GCP), que os leitores podem experimentar por conta própria.
Esta série destina-se a cientistas e analistas de dados que desejam ir além do estágio de treinamento do modelo e criar pipelines de dados e produtos de dados que podem ser impactantes para uma organização. No entanto, também pode ser útil para outras disciplinas que desejam um melhor entendimento de como trabalhar com cientistas de dados para executar experimentos e criar produtos de dados. Ele é destinado a leitores com experiência em programação e incluirá exemplos de código principalmente em R e Java.”
Visão geral da série
Aqui estão os tópicos que estou planejando cobrir para esta série do blog. Enquanto escrevo novas seções, posso adicionar ou mover seções. Por favor, forneça comentários no final deste post se houver outros tópicos que você acha que devem ser abordados.
- Introdução (este post): Fornece motivação para usar a ciência de dados em uma inicialização e fornece uma visão geral do conteúdo abordado nesta série de postagens. Postagens semelhantes incluem funções de ciência de dados , dimensionamento de dados científicos e minha jornada no FinTech .
- Rastreando dados: discute a motivação para capturar dados de aplicativos e páginas da Web, propõe diferentes métodos para coletar dados de rastreamento, apresenta preocupações como privacidade e fraude e apresenta um exemplo com o Google PubSub.
- Pipelines de dados: Apresenta diferentes abordagens para coletar dados para uso por uma equipe de análise e dados, discute abordagens com arquivos simples, bancos de dados e lagos de dados e apresenta uma implementação usando PubSub, DataFlow e BigQuery. Postagens semelhantes incluem um pipeline analítico escalável e a evolução das plataformas de análise de jogos .
- Business Intelligence: Identifica práticas comuns para ETLs, relatórios / painéis automatizados e calcula métricas e KPIs executados. Apresenta um exemplo com R Shiny e Data Studio.
- Análise exploratória : abrange análises comuns usadas para escavar dados, como a construção de histogramas e funções de distribuição cumulativa, análise de correlação e importância de recursos para modelos lineares. Apresenta uma análise de exemplo com oconjunto de dados públicos Natality . Postagens semelhantes incluem o agrupamento dos primeiros 1% e 10 anos de visualizações da ciência de dados .
- Modelagem Preditiva : Aborda abordagens para aprendizado supervisionado e não supervisionado e apresenta modelos preditivos de rotatividade e promoção cruzada, além de métodos para avaliar o desempenho do modelo off-line.
- Produção de modelo : mostra como dimensionar modelos off-line para obter milhões de registros e discute abordagens em lote e on-line para implantação de modelos. Postagens semelhantes incluem Productizing Data Science no Twitch e Producizting Models with DataFlow .
- Experimentação: fornece uma introdução ao teste A / B para produtos, discute como configurar uma estrutura de experimentação para executar experimentos e apresenta uma análise de exemplo com R e bootstrapping. Postagens semelhantes incluem testes A / B com lançamentos graduais .
- Sistemas de Recomendação: Introduz os fundamentos dos sistemas de recomendação e fornece um exemplo de ampliação de um recomendador para um sistema de produção. Postagens semelhantes incluem prototipagem de um recomendador .
- Aprendizado Profundo: Fornece uma introdução leve aos problemas de ciência de dados que são melhor abordados com aprendizado profundo, como a sinalização de mensagens de chat como ofensivas. Fornece exemplos de modelos de prototipagem com a interface R para Keras e a produção com a interface R para CloudML .
A série também está disponível como livro nos formatos web e impresso .
Fonte: Towards Data Science