Big Data é o termo que designa o grande volume de dados armazenados – estruturados e desestruturados – que impactam significativamente os mais variados negócios no dia a dia. Extensivamente presente na atualidade, os principais desafios desta área incluem: observação, captura, curadoria, estudo, compartilhamento, retenção, transmissão, visualização e informações sobre privacidade. Big Data, na maioria das vezes, refere-se ao uso de análise preditiva, assim como a alguns métodos avançados para colher valor de dados; poucas vezes descreve um estipulado tamanho do conjunto de dados.
A quantidade de informações não é o mais importante, mas sim o que é feito com eles. O Big Data pode ser explorado para obter insights que levam a melhores decisões e estratégias de negócio. Essas, por sua vez, podem significar maior eficiência operacional e redução de custos e riscos.
Embora o termo seja relativamente novo – surgiu em meados de 2005 com o Google e ganhou força em 2008, com a transformação da plataforma Hadoop (Yahoo) em Open Source –, o ato de compilar e armazenar grandes quantidades de dados para eventuais análises posteriores é relativamente antigo.
No início dos anos 2000, Doug Laney, um analista famoso, articulou a definição de Big Data incluindo os três Vs:
- Volume - relacionado à enorme quantidade de dados oriundos de variadas fontes. Antes do surgimento de plataformas como o Hadoop, armazenar toda a carga de informações era um grande problema.
Velocidade - os dados fluem numa velocidade sem precedentes e devem ser abordados em tempo hábil.
Variedade - os dados são concebidos em todos os tipos de formatos: de dados estruturados, até documentos de texto, e-mail, áudio, vídeo, transações financeiras etc.