A definição de "big data" não é muito clara. Segundo o quase-omnisciente Google, big data é uma expressão usada para designar "extremely large data sets that may be analysed computationally to
reveal patterns, trends, and associations, especially relating to human
behaviour and interactions." Uma definição que costumamos usar no LBIM é que "big data" são bases de dados tão grandes que o Excel não as consegue abrir.
Em especial na Medicina, big data traz muitas vezes big trouble, como é descrito neste artigo de opinião. Muito do que causa problemas é comum a problemas onde a base de dados não é grande, como por exemplo:
- missing data: quando há variáveis diferentes com missing data, isso poderá diminuir drasticamente o n (tamanho da amostra) do estudo. Havendo três variáveis com missing data cada uma, qualquer teste estatístico que envolva as três variáveis só poderá ter em conta as observações para as quais se tenham observado as três variáveis. A existência de missing data pode transformar tantos dados "normais" quanto big data em insufficient data;
- garbage in, garbage out: quando os dados não são de qualidade, os resultados de uma análise estatística não poderão ser bons. A inclusão de uma variável medida sem precisão suficiente estraga de forma irremediável qualquer modelo, mesmo quando se usa o melhor método nos melhores computadores;
- falta de planeamento: por vezes há a oportunidade de registar dados muito promissores. Porém, a ideia de adquirir dados e depois tentar extrair deles informação interessante, sem um planeamento a priori, é geralmente um passo para o desastre. A ordem correcta do raciocínio deve ser:
- definição do que se quer obter de dados que é possível obter
- definição das características dos dados que é necessário obter (por exemplo, qual terá de ser o sample size? Como deverão ser armazenados os dados para permitir a sua análise)
- obtenção dos dados
- análise
A possibilidade cada vez mais frequente de se obter big data (ou mesmo bases de dados que, não sendo big data, são "grandes" relativamente ao que é comum nalgumas áreas, tendo por exemplo n=300 ou n=400) é aliciante, mas é também terreno fértil para oportunidades falhadas. Colher dados por colher (e depois se vê...) raramente dará bons resultados. O planeamento prévio é essencial.
Sem comentários:
Enviar um comentário