Você já ouviu falar sobre a tecnologia do Big Data e para que serve? Vamos te dar uma dica: Ao traduzirmos essas palavras para o português, temos “grandes dados” ou “grandes volumes de dados”. Nesta leitura, você vai aprender o que significa Big Data e qual a sua importância para os dias atuais.
Vamos abordar primeiramente sobre algumas motivações que impulsionaram o surgimento do Big Data. Neste ponto, é importante frisar que o volume de dados cresce a todo momento de uma maneira exponencial, seja em uma rede social, num site de e-commerce, e até mesmo na área científica. Confira abaixo algumas estatísticas:
- O Facebook recebe mais de 1 bilhão de usuários todos os dias, sendo que mais de 4 bilhões de likes e 300 milhões de imagens são publicadas todos os dias dentro da rede social.
- Em horários de pico, mais de 30% de todo acesso à internet nos EUA é voltado para o aplicativo Netflix. A empresa tem mais de 100 milhões de assinantes e mais de 15 mil títulos;
- Existem mais dispositivos conectados à internet do que seres humanos na terra. A estimativa é que existam 20 bilhões de dispositivos em 2020. E cada um desses dispositivos podem gerar informações;
A quantidade de dados existente em todo o mundo, até uma certo período do passado, podia ser manipulada por meio de ferramentas tradicionais de armazenamento e processamento. No entanto, com o crescimento exponencial desses dados, ficou inviável a utilização dessas ferramentas para a sua manipulação. É neste momento que entra a tecnologia do Big Data.
O que é Big Data?
Big data é um conceito que pode possuir diversas definições. Vamos começar por uma definição mais formal:
- Big Data refere-se ao processamento e análise de conjuntos de dados extremamente grandes, que não podem ser processados utilizando-se ferramentas convencionais de processamento de dados.
Confira outras definições para Big Data:
- O grande volume de dados tem aumentado de maneira extraordinária durante as últimas décadas. Com o advento da internet, as informações saíram das casas do TeraBytes passando para os Petabytes. No ano de 2015, um novo marco foi alcançado. Os dados passaram para o patamar dos Zetabytes (1 Zetabyte equivale a 1 bilhão de Terabytes). Este grande volume de dados gerado é chamado de Big Data;
- Big Data é a geração mais recente de tecnologias concebidas para a extração de valor de grande quantidade de dados, provenientes das mais diversas fontes, possibilitando alta velocidade na captura, exploração e análise dos dados;
- Big Data trata-se de um conjunto enorme de dados que aumenta a cada dia e com velocidade cada vez maior;
Os dados que alimentam esse conceito do Big Data são originados de várias fontes distintas, podendo estas serem estruturadas, semiestruturadas e não estruturadas. Confira abaixo uma breve explicação sobre cada um desses tipos de dados.
Dados Estruturados em Big Data
Dados estruturados correspondem aos dados que armazenamos em bancos de dados tradicionais. Em outras palavras, tratam-se de dados que apresentam uma estrutura definida. Como exemplos de dados estruturais, citamos o banco de dados relacional no qual irá armazenar e organizar os dados em tabelas. Planilhas de Excel é um outro exemplo de dados estruturados.
Características do dado estruturado:
- Apresenta esquema fixo;
- Formato bem definido;
- Conhecimento prévio da estrutura de dados;
- Facilidade para relacionar informações;
- Dificuldade para alterar o modelo;
Dados Não Estruturados em Big Data
Os dados não estruturados correspondem aos dados que não podem ser organizados em linhas e colunas, tratando-se de uma mesclagem de dados oriundos de várias fontes distintas, como vídeo, áudio, texto, imagens, entre outros.
Características do dado não estruturado:
- Não apresenta um tipo definido;
- Não apresenta uma estrutura regular;
- Pouca controle sobre a forma;
- Manipulação mais simplificada;
- Facilidade de alteração do modelo;
Dados Semiestruturados em Big Data
Os dados do tipo semiestruturados não estão em conformidade com a estrutura formal dos modelos de banco de dados relacionais. Podem seguir diversos padrões, de forma heterogênea, sendo necessária uma análise de dados para que a estrutura seja identificada. Exemplos de dados semiestruturados: XML, JSON.
Características do dado semi estruturado:
- Estrutura flexível;
Quais as tecnologias envolvidas em Big Data
Há muitas tecnologias distintas que envolvem o Big Data. Confira algumas:
- Sistemas de arquivos distribuídos;
- Processamento Paralelo Massivo;
- Tecnologia da Nuvem;
- Grids de Mineração de Dados;
- Redes de Alta Velocidade;
- Sistema de Escalabilidade;
- Algoritmos;
- Técnicas de Inteligência Artificial.
Características do Big Data
O conceito de Big Data foi caracterizado a início por 3Vs, no entanto, ele foi expandido para 5Vs, conforme mostrado abaixo:
Volume dos dados do Big Data
O volume de dados está relacionada à quantidade de dados armazenados. Pesquisas apontam que no ano de 2020 haverá cerca de 35 Zetabytes de dados armazenados em todo o mundo. Além disso, a quantidade de informação gerada tende a dobrar a cada dois anos.
Velocidade de dados do Big Data
A velocidade de dados corresponde à taxa de geração de dados. A velocidade de geração de dados pode se tornar tão elevada, que os sistemas tradicionais de análise não são capazes de manipular e entendê-los. O Big Data possui suas técnicas específicas para tratamento dessa informação.
Variedade dos dados do Big Data
Os dados que compõem o Big Data incluem não apenas os dados transacionais de banco de dados comuns (estruturados), mas também vários outros, tais como: páginas da Web, índices de pesquisas de buscadores, fóruns online, rede sociais (como Facebook e Instagram), emails, arquivos de log, áudio e vídeo.
Os sistemas tradicionais não conseguem armazenar, muito menos processar e compreender essa vasta gama de dados gerados constantemente. Dessa maneira, é necessário fazer uso de novas tecnologias, técnicas e algoritmos para executar a análise desses dados, tanto estruturados como não estruturados, em conjunto. Em geral, pode-se dizer que apenas 20% de toda a quantidade de dados existente são estruturados, sendo os 80% restantes, não estruturados.
Veracidade dos dados do Big Data
A veracidade refere-se à confiabilidade dos dados. Os dados, por sua vez, devem possuir algumas características, tais como:
- Qualidade e consistência;
- Origem conhecida / fonte de dados;
- Dados verdadeiros e não fabricados;
- Dados internos ou externos;
Valor dos dados do Big Data
O valor é uma aplicação do Big Data que possibilitar aumentar a receita, identificar novas oportunidades, economizar custos, melhorar a qualidade do produto e a satisfação do cliente, garantindo assim melhores resultados e resolução de problemas.
Exemplos de aplicações do Big Data
Agora que já sabemos o que é Big Data e quais as suas características, é necessário entendermos onde podemos aplicar este conceito. Existem diversos campos de aplicação no Big Data. Confira alguns:
- Monitoramento em redes sociais;
- Netflix (recomendação de filmes);
- Web Analytics (lojas virtuais);
- Análises de dados financeiros (para evitar fraudes);
- Análises de dados médicos;
- Análise de dados trafegados em redes;
- Publicidade e propaganda personalizados;
- Uso de telefones celulares;
- Informações sobre o tempo;
- Informações sobre trânsito e modelos de tráfego;
Empresas que atuam na área de Big Data
Confira abaixo algumas empresas que estão desenvolvendo ou utilizando sistemas na área de Big Data:
- Google;
- IBM;
- Microsoft;
- Cloudera;
- Teradata;
- New Relic;
- Salesforce;
Finalizando…
A ação de extrair dados estruturados é praticamente simples, uma vez que o contexto no qual ele estão inseridos é conhecido. E no caso dos dados não estruturados, que conforme vimos acima, são aqueles que não possuem organização e estão fora de contexto?
Existem programas de computador que extraem dados, tanto estruturados como não estruturados. Entretanto, é exigido menos esforço dos programas para a extração de dados estruturados. No caso da extração de dados não estruturados, torna-se necessário fazer uso de fórmulas mais complexas para a sua compreensão, no qual são feitos vários testes para a validação destes tipos de dados.
Existem diversas técnicas sendo desenvolvidas e implementadas com o intuito de simplificar o otimizar o processo da extração dos dados não estruturados.
O que você achou sobre essa matéria abordando o conceito de Big Data? Se você curtiu essa postagem, compartilhe este post com seus amigos.