Desafio do Titanic do Kaggle: Uma abordagem didática na exploração e preparação dos dados para análise preditiva
O Kaggle, de forma resumida, é uma plataforma que hospeda competições de ciência de dados, famosa entre profissionais e entusiastas da área. Entre as diversas competições disponíveis ao público, o desafio do Titanic provavelmente seja o mais popular entre os iniciantes no mundo dos dados.
A competição funciona da seguinte forma: o Kaggle fornece os dados sobre os passageiros do RMS Titanic, o famoso transatlântico britânico naufragado em 1912. Entre dados como sexo, preço da tarifa, porto de embarque e etc., há uma variável que indica se o passageiro sobreviveu ou não ao naufrágio. No entanto, parte dos passageiros não possui tal informação e a partir daí o competidor entra em ação através de uma análise preditiva para tentar adivinhar quais passageiros sobreviveram ao desastre.
A proposta deste artigo é apresentar aos ̶m̶a̶r̶i̶n̶h̶e̶i̶r̶o̶s̶ cientistas de dados de primeira viagem uma abordagem didática, através da linguagem R, no processo de exploração e preparação dos dados, incluindo a criação de novas variáveis e a imputação de dados ausentes, de modo que ao término do processo tenhamos um conjunto de dados adequado para modelagem preditiva.