Data Science e Big Data: Dois mundos muito diferentes
Por
Publicado: July 31, 2015
É difícil superestimar a importância que os dados possuem na economia atual. As ferramentas que usamos e ações que tomamos consomem e geram uma versão digital de nosso mundo, completamente capturado e esperando para ser utilizado. Dados tornaram-se um recurso de interesse real para a maioria das indústrias e são, com razão, considerados a chave para vantagens competitivas e estratégias disruptivas.
Com o advento dos dados vieram dois esforços distintos interessados em aproveitar seu potencial: um chama-se Data Science e o outro Big Data. Esses termos são frequentemente usados de forma intercambiável apesar de assumirem papéis fundamentalmente diferentes na tarefa de extrair todo o potencial dos dados dentro de uma organização.
Apesar de alguns argumentarem que ainda há confusão em torno dos termos Data Science e Big Data, isso está mais relacionado a interesses de marketing do que a um olhar honesto sobre o que esses termos vêm a significar em um projeto real. Data Science preocupa-se com a criação de modelos que capturem os padrões subjacentes de sistemas complexos e com a transformação desses modelos em aplicações práticas. Big Data tem como objetivo coletar e gerenciar enormes quantidades de dados diversos para servir grandes aplicações Web e vastas redes de sensores.
Embora ambas ofereçam potencial para produzir valor a partir dos dados, a diferença fundamental entre Data Science e Big Data pode ser resumida a uma frase:
Com a Revolução Industrial veio a habilidade de converter material bruto em produtos valiosos de forma mais eficiente e em escala. O foco em escala, porém, não veio da aquisição de mais material. Ele veio através da construção de ferramentas que escalonaram e mecanizaram a expertise da transformação. Com essa mecanização veio uma necessidade ainda maior de se entender aquele ofício já que, para operar, manter e inovar em escala e de forma eficiente, era necessária uma profunda compreensão do processo de se converter materiais brutos em produtos que respondessem às demandas do mercado.
No mundo dos dados essa habilidade de transformação é chamada de Data Science. O motivo para ser necessária uma ciência a fim de converter materiais brutos em algo de valor é que o que se extrai do "solo" nunca se encontra em um formato útil. Os "dados brutos" estão salpicados de ruído inútil, informação irrelevante e padrões enganosos. Convertê-los naquele material precioso do qual estamos em busca requer o estudo de suas propriedades e a descoberta de um modelo que capture o comportamento no qual estamos interessados. Estar em posse de um modelo a despeito da presença de ruído significa que a organização agora pode dar início a um processo posterior de descobertas e inovações. Isso representa algo único para o seu negócio, algo que aponta para novas direções e apresenta descrições codificadas de um mundo que pode agora ser mecanizado e escalonado.
Um infeliz aspecto de Big Data é que tomamos as maiores companhias do mundo como exemplo para ver quais soluções elas edificaram para competir em seus mercados. Essas companhias, porém, dificilmente representam os desafios enfrentados pela maioria das organizações. Sua dominância costuma significar que elas enfrentam competição de uma natureza bastante diferente e suas soluções de engenharia são feitas predominantemente para servir aplicações de larga escala. Tais soluções são críticas para operações diárias, respondendo às demandas de altas taxas de transferência e arquiteturas tolerantes a falhas. No entanto, elas dizem muito pouco sobre a habilidade de descobrir e converter o que é coletado em modelos valiosos que capturem as forças por trás de como seus mercados operam. A habilidade de explicar e prever o ambiente dinâmico de uma organização reflete o que significa competir usando dados.
Compreender a distinção entre Data Science e Big Data é crítico para o investimento em uma estratégia de dados prudente. Para organizações que almejam utilizar seus dados como um recurso competitivo, o investimento inicial deve ser focado na conversão de dados em valor. O foco deve ser nos aspectos de Data Science necessários à criação de modelos que convertam os dados brutos em algo relevante. Com o tempo, abordagens baseadas em Big Data podem trabalhar em sincronia com as de Data Science. A grande variedade de dados extraída pode ajudar a fazer novas descobertas ou melhorar a habilidade preditiva de modelos existentes.
Preencha a forja com as habilidades e expertise necessárias para se converter dados em algo útil. O minério forjado aqui se transformará nos produtos que definem uma empresa.
Artigo publicado originalmente em KDNuggets.
Com o advento dos dados vieram dois esforços distintos interessados em aproveitar seu potencial: um chama-se Data Science e o outro Big Data. Esses termos são frequentemente usados de forma intercambiável apesar de assumirem papéis fundamentalmente diferentes na tarefa de extrair todo o potencial dos dados dentro de uma organização.
Apesar de alguns argumentarem que ainda há confusão em torno dos termos Data Science e Big Data, isso está mais relacionado a interesses de marketing do que a um olhar honesto sobre o que esses termos vêm a significar em um projeto real. Data Science preocupa-se com a criação de modelos que capturem os padrões subjacentes de sistemas complexos e com a transformação desses modelos em aplicações práticas. Big Data tem como objetivo coletar e gerenciar enormes quantidades de dados diversos para servir grandes aplicações Web e vastas redes de sensores.
Embora ambas ofereçam potencial para produzir valor a partir dos dados, a diferença fundamental entre Data Science e Big Data pode ser resumida a uma frase:
"Coletar não significa descobrir"
Apesar dessa declaração ser óbvia, sua veracidade é frequentemente ignorada em meio à pressa para se carregar o arsenal de uma companhia com tecnologias de dados modernas. O valor quase sempre é algo retratado como algo que aumenta unicamente através da coleta de mais dados. Isso significa que investimentos em atividades focadas em dados circulam ao redor de ferramentas ao invés de abordagens. O ponto de vista do engenheiro é colocado à frente do cientista, deixando as organizações com um grande conjunto de ferramentas e uma limitada quantidade de conhecimento a respeito de como converter dados em algo útil.
Adicionando minério à oficina
Desde o despertar da Idade de Ferro, os ferreiros usaram suas habilidades e conhecimento para transformar materiais brutos em uma variedade de produtos de valor. Usando ferramentas específicas, o ferreiro forja, retira, dobra, bate e solda o material bruto transformando-o em objetos de grande utilidade. Através de anos de pesquisa, tentativa e erro, o ferreiro aprendeu a usar gases selecionados, temperaturas específicas e uma variedade de fontes de minerais para produzir um produto sob medida reservado à sua aplicação única.Com a Revolução Industrial veio a habilidade de converter material bruto em produtos valiosos de forma mais eficiente e em escala. O foco em escala, porém, não veio da aquisição de mais material. Ele veio através da construção de ferramentas que escalonaram e mecanizaram a expertise da transformação. Com essa mecanização veio uma necessidade ainda maior de se entender aquele ofício já que, para operar, manter e inovar em escala e de forma eficiente, era necessária uma profunda compreensão do processo de se converter materiais brutos em produtos que respondessem às demandas do mercado.
No mundo dos dados essa habilidade de transformação é chamada de Data Science. O motivo para ser necessária uma ciência a fim de converter materiais brutos em algo de valor é que o que se extrai do "solo" nunca se encontra em um formato útil. Os "dados brutos" estão salpicados de ruído inútil, informação irrelevante e padrões enganosos. Convertê-los naquele material precioso do qual estamos em busca requer o estudo de suas propriedades e a descoberta de um modelo que capture o comportamento no qual estamos interessados. Estar em posse de um modelo a despeito da presença de ruído significa que a organização agora pode dar início a um processo posterior de descobertas e inovações. Isso representa algo único para o seu negócio, algo que aponta para novas direções e apresenta descrições codificadas de um mundo que pode agora ser mecanizado e escalonado.
A Conversão deve escalonar antes da Coleta
Nenhuma indústria investiria na extração de um recurso sem a expertise necessária para transformar aquele recurso em algo de valor - isso seria considerado uma má aposta em qualquer indústria. Carregar o caminhão com minérios apenas para levá-los a uma forja vazia adiciona pouco valor estratégico.Um infeliz aspecto de Big Data é que tomamos as maiores companhias do mundo como exemplo para ver quais soluções elas edificaram para competir em seus mercados. Essas companhias, porém, dificilmente representam os desafios enfrentados pela maioria das organizações. Sua dominância costuma significar que elas enfrentam competição de uma natureza bastante diferente e suas soluções de engenharia são feitas predominantemente para servir aplicações de larga escala. Tais soluções são críticas para operações diárias, respondendo às demandas de altas taxas de transferência e arquiteturas tolerantes a falhas. No entanto, elas dizem muito pouco sobre a habilidade de descobrir e converter o que é coletado em modelos valiosos que capturem as forças por trás de como seus mercados operam. A habilidade de explicar e prever o ambiente dinâmico de uma organização reflete o que significa competir usando dados.
Compreender a distinção entre Data Science e Big Data é crítico para o investimento em uma estratégia de dados prudente. Para organizações que almejam utilizar seus dados como um recurso competitivo, o investimento inicial deve ser focado na conversão de dados em valor. O foco deve ser nos aspectos de Data Science necessários à criação de modelos que convertam os dados brutos em algo relevante. Com o tempo, abordagens baseadas em Big Data podem trabalhar em sincronia com as de Data Science. A grande variedade de dados extraída pode ajudar a fazer novas descobertas ou melhorar a habilidade preditiva de modelos existentes.
Preencha a forja com as habilidades e expertise necessárias para se converter dados em algo útil. O minério forjado aqui se transformará nos produtos que definem uma empresa.
Artigo publicado originalmente em KDNuggets.
Aviso: As afirmações e opiniões expressas neste artigo são de responsabilidade de quem o assina, e não necessariamente refletem as posições da Thoughtworks.