sexta-feira, 9 de janeiro de 2015

Boas práticas para criar e para fortalecer seu Data Warehouse

Boa noite, vamos escrever um pouco sobre boas práticas para criar e fortalecer seu Data Warehouse. Esperamos que vocês gostem!!!
Em um mercado tão competitivo, onde todas as empresas disputam clientes, ser diferente é fundamental, e é uma prática para se destacar diante de tamanha competitividade.
As empresas preocupadas com a rapidez e com a agilidade nas informações, que irão auxiliá-las na tomada de decisões, se normatizam, criam seu ambiente de Business Intelligence (BI) e certamente se preparam para a criação de seu Data Warehouse (DW).
Mais do que nunca, você e seus modelos precisam dominar diferentes linguagens e atender a diversos públicos-alvo para oferecer suporte adequado às iniciativas de Data Warehouse de sua empresa. Bons metadados podem ser gerados se você tiver uma compreensão real de seus dados.
Os sistemas de DW auxiliam na revitalização dos dados das empresas e consolidam dados inconsistentes dos sistemas mais antigos. Isso faz com que sistemas antigos continuem em operação, ajuda a extrair benefícios de novas informações com origem nas operações atuais e promove um ambiente para planejamento e para arquitetura de novos aplicativos mais operacionais.
Devemos considerar, entretanto, que um DW não contém apenas dados resumidos, podendo conter também dados muito antigos. Precisamos dar ao usuário a capacidade de aprofundar-se num determinado tópico, investigando níveis de agregação menores.
Limitar o conteúdo de um DW apenas a dados resumidos significa limitar os usuários apenas às consultas e às análises que eles puderem antecipar, não deixando qualquer flexibilidade para novas necessidades.
Atualmente os dados estão crescendo a taxas astronômicas, logo, a necessidade de ter as informações mais consolidadas está cada vez mais presente.

Fonte: http://imasters.com.br/artigo/18401/banco-de-dados/as-melhores-praticas-para-criar-e-para-fortalecer-seu-data-warehouse/#

Modernização


Como o volume de dados aumenta na casa de dez vezes a cada cinco anos. Mesmo o DW mais robusto exigirá operações de armazenamento e processamento caros e um hardware maior e mais caro para acompanhar esse crescimento. Então não se pode parar de modernizar um data warehouse, pois moderniza-lo com novas tecnologias pode ajudar as empresas  a atender às necessidades de hoje ao conectar praticamente qualquer volume de dados, privados e públicos, a um BI ágil e familiar, para as melhores decisões de negócios.

Um Data Warehouse Moderno permite:

• Gerir Qualquer Volume de Dados: O Data Warehouse Moderno pode escalar para qualquer volume de dados a partir de terabytes, chegando a até múltiplos petabytes, tratando todos os tipos de dados - relacionais e não- relacionais. Como exemplo, a Virginia Tech foi capaz de triturar os dados de seqüenciadores de DNA (que crescem mais de 15 petabytes por ano) para fazer pesquisas sobre o câncer.

• Desempenho em Tempo Real: A capacidade de trabalhar com dados em tempo real para manter o ritmo crescente da demanda, sem perder o desempenho. Como exemplo, o MEC foi capaz de trazer consultas de clientes on-line a partir de métricas de visitação, de quatro horas para apenas alguns minutos.

• Quaisquer Tipos de dados: a capacidade de se integrar perfeitamente sobre quaisquer tipos de dados a partir de fontes relacionais tradicionais a novas fontes não- relacionais. Como exemplo, a Direct Edge foi capaz de unir mensagens não- relacionais das bolsas de valores com seus dados relacionais de cotações da bolsa.


Data Mart vs Data Warehouse

Um Data Mart é um mini Data Warehouse que fornece suporte à decisão para um pequeno grupo de pessoas – como aos profissionais da área de marketing, ou de vendas, por exemplo. O tempo de desenvolvimento e implementação, assim como os investimentos necessários, também são bem menores, em comparação ao DW. Segundo estimativas, enquanto um Data Mart custa em torno de US$ 100 mil a US$ 1 milhão e leva cerca de 20 dias para ficar pronto, um DW integral começa a partir de US$ 2 milhões e demora no mínimo um ano para estar consolidado. Mas são valores apenas estimados, uma vez que não existe um projeto padrão que serve para todas as empresas indistintamente. O montante aplicado depende de cada caso.
De acordo com alguns especialistas no assunto, as diferenças existentes entre um Data Mart e um Data Warehouse são apenas com relação ao tamanho do projeto e ao escopo da empresa. Portanto, as definições dos problemas e os requisitos dos dados são essencialmente os mesmos para ambos. No entanto, um Data Mart trata das questões departamentais ou locais (de um departamento específico), enquanto um DW envolve as necessidades de toda a companhia de forma que o suporte à decisão atue em todos os níveis da organização.

Fatores críticos

Boa noite pessoal, estou trazendo um resumo de alguns fatores críticos que devem ser observados na implantação do data warehouse.


  • Avaliação inicial e foco estratégico

Uma avaliação completa, com estudos e levantamentos de benefícios deve ser executada antes de se dar início ao projeto, assim como todo o custo e o tempo que serão demandados.


  • O projeto deve ser guiado pelo negócio e não pela tecnologia                                                      
Um data warehouse deve ser guiado pelo negócio, e não pela tecnologia. Com o objetivo de atender às necessidades estratégicas da organização, o projeto do data warehouse deve seguir claramente os requisitos dos usuários, que deverão ter suas necessidades - informações e formatos de consultas - plenamente atendidos. As decisões de projeto deverão ser tomadas com base nos requisitos do negócio, e não com base na tecnologia. A equipe de sistemas, somente após conhecer claramente as necessidades dos usuários,deverá oferecer soluções técnicas que atendam estas necessidades. 



  • Patrocínio para o projeto

O projeto deve ter um patrocínio forte e claro dento da organização, já que além do tempo e do gasto financeiro, o data warehouse provoca várias mudanças de ordem política e estrutural. Este patrocinador deve estar ciente das dificuldades que irá encontrar e deve difundir corretamente a ideia do data warehouse na organização. A alta administração deve manifestar constantemente apoio explícito ao projeto e auxiliar a equipe de sistemas na condução dos trabalhos.

  • Integração da área de sistemas e os usuários
Quanto melhor for a comunicação entre as áreas de uma empresa, melhor será a implantação de uma tecnologia ou ferramenta. O fator humano geralmente é desprezado pela maioria dos projetos, e conseqüentemente, está entre as maiores causas de fracasso, seja em projetos de informática ou não. Quanto ao data warehouse, a maior parte dos fracassos dá-se por motivos não técnicos. Isto prova que por melhor que um projeto seja tecnicamente concebido, de nada valerá se as pessoas envolvidas não o utilizarem corretamente

  • Extração e carregamento dos dados
Este processo é a base para um data warehouse bom e funcional, e já que o data warehouse contém as informações mais importantes para a tomada de decisão de uma corporação, pode ser considerado bastante crítico. Porém, o processo de extração dos dados dos bancos de dados dos sistemas de informação tradicionais e seu carregamento para o data warehouse, é bastante crítico e oneroso. É bastante complicado rastrear e mapear informações de vários bancos de dados, projetados por diferentes profissionais, em diferentes épocas, que podem estar em diferentes formatos, plataformas e tecnologias, espalhados por toda a organização, às vezes sem documentação e geralmente redundantes.  

Existem muitos outros fatores críticos...quem estiver curioso é só consultar a fonte que está sendo disponibilizada abaixo: 
 



Amazon Redshift

Boa noite pessoal, hoje estarei trazendo mais um vídeo, este especifica os benefícios, detalhes técnicos e traz uma demonstração prática  do Redshift da Amazon que  é um serviço gerenciado de data warehouse que funciona na Nuvem.

Uso de Big Data no Supermercado.



O Big Data tem trazido muitos benefícios para as organizações, que podem obter informações a partir da captação de dados não estruturados da internet, que posteriormente são cruzados e interpretados para direcionar ações, possibilitando que essas impactem exatamente o público-alvo desejado.  As vantagens dessa tecnologia têm sido aproveitadas por todos os segmentos, mas em maior escala pelo varejo, que o utiliza para entender o comportamento dos consumidores e impactá-los por diversos meios. 

Supermercado compras

Diante dessa realidade, surgem inúmeras ferramentas de TI no mercado para auxiliar no processo do tratamento de dados, uma vez que o volume de informações é imenso e é preciso coletá-los, armazená-los e cruzá-los de uma forma que realmente tragam ganhos para as empresas. Todas as soluções para uso dessa tecnologia são bem recentes e surgem novidades a cada dia, já que antes as empresas não trabalhavam com dados não estruturados para isso e, portanto, não tinham essa estratégia.  Por exemplo, quando lançavam um carro, utilizavam informações de pesquisas feitas em pontos de vendas e obtidas por meio do SAC da empresa. Era mais simples cruzar e analisar informações para direcionar as ações do lançamento. Hoje, é preciso reunir pesquisas em pontos de vendas, redes sociais e todos os demais canais que surgiram por conta da internet. 

Nesse contexto, uma campanha atual de uma rede varejista, por exemplo, contempla uma série de etapas. Primeiramente, é preciso obter dados estruturados e não estruturados com o objetivo de medir resultados de uma campanha feita para lançamento de um produto. Em um segundo momento, captar os dados não estruturados que são, por exemplo, pessoas que já falaram daquele produto no Facebook, mas não estão na loja. Dessa forma, será estudado qual será o melhor meio para atrair aquele consumidor. É possível promover uma ação para disparar um anúncio quando o potencial cliente estiver nas proximidades, uma vez que a localização das pessoas geralmente é obtida por meio dos smartphones delas. Nesse exato momento, é possível atingir esse potencial consumidor. 

Ainda existe uma maneira mais sofisticada de entender o perfil dos consumidores que é cruzando os dados extraídos em pesquisas específicas com dados estatísticos da população.  Dessa forma, a fabricante de cerveja pode direcionar sua publicidade para estabelecimentos em que predomine a presença do público masculino. Antes, eram necessárias diversas ações que não garantiam assertividade e com isso, desperdiçavam a verba de propaganda e marketing das empresas.

Dessa forma, em meio a tantas opções, é preciso organizar seu ambiente de TI para que as ferramentas sejam eficazes na coleta, armazenamento, cruzamento e análise dos dados. Para isso, são necessárias soluções que entregam alta disponibilidade e que permitam filtrar os dados corretamente. Outro ponto importante é que essas ferramentas vejam o momento certo de descartar os dados que não servirem mais para a finalidade desejada. Por exemplo, o pai que compra fralda deixa de ser o público-alvo de quem comercializa esse produto quando a criança cresce. Para tais análises, é preciso também que exista uma camada de software no ambiente de TI, que deve estar devidamente integrado para tratar os dados de uma forma que as informações captadas efetivamente apoiem as decisões estratégicas de relacionamento com os clientes.

Fonte: http://corporate.canaltech.com.br/noticia/big-data/Big-Data-na-prateleira-dos-supermercados/

Um ótimo caso de Big Data.



Olá pessoal,
À procura de matérias interessantes para postar para vocês, encontrei essa que trata como o Big Data está auxiliando à previsão do tempo.

Você não sabe o que é Big Data ou sua diferença com o Data Warehouse ?

weather.com

Prever o tempo sempre foi uma questão relacionada à explosão de dados – tanto é que um dos primeiros programas de computador escritos para o Eniac, o primeiro computador digital de grande escala do mundo, foi um modelo climático que contava com 25.000 cartões perfurados. Com o avanço tecnológico, melhores condições foram oferecidas para a execução dessas tarefas, mas foi na nuvem (sem trocadilhos, por favor!) que o setor encontrou um ambiente verdadeiramente propício para trabalhar todos esses dados e sinais emitidos pelo planeta.
O Weather.com é a maior empresa de previsão do tempo do mundo. O estudo dos mais de 4 Gigabytes de dados gerados a cada segundo pelas mais de 48.000 estações espalhadas pelo globo é um trabalho hercúleo, que só está sendo melhor aproveitado graças à infraestrutura em nuvem fornecida pela AWS. Até pouco tempo, a empresa trabalhava com 13 data centers próprios, espalhados por diversas partes do mundo, interligados e interdependentes. Há 2 anos, começou a migrar toda sua estrutura para a cloud e hoje, os 20.000 cores e 200 TB de RAM da estrutura da AWS processam 20 TB de dados todos os dias. Quase todos os serviços da empresa, atualmente, rodam na nuvem – com exceção de uma ou outra aplicação do canal de TV, já que vídeos em HD ainda "sofrem" com a velocidade atual da internet. Mas a tendência, segundo Bryson Koehler, CIO e CTO do Weather.com, é estar 100% na nuvem dentro de algum tempo.
"Evoluímos 10 anos nesses 24 meses, e o fato de reconstruirmos nosso ambiente na AWS foi determinante", afirmou o executivo durante entrevista no AWS re:Invent, principal evento global da AWS que aconteceu no início de novembro em Las Vegas, EUA. As previsões do tempo, que apresentavam um índice de assertividade de pouco menos de 70% há cinco anos, passaram agora a ser 77% corretas. Além disso, a empresa gasta 2/3 menos dinheiro em infraestrutura – uma economia que acaba sendo revertida para ainda mais inovações.

Como a previsão do tempo é feita?

Há cinco anos, o Weather.com previa o tempo para 20.000 localidades ao redor do mundo. Hoje, a empresa divide o planeta em 27.000 pequenas partes (grids definidos por latitude/longitude), que são atualizadas a cada 15 minutos com dados meteorológicos para os próximos 10 dias. "Não importa se a pessoa faz a requisição da previsão em Nova Iorque, no meio da selva amazônica ou em alto-mar, a forma como trabalhamos em cada canto do mundo é a mesma", diz Bryson.
Atualmente, a empresa coleta dados de 48.000 estações espalhadas pelo planeta – e não são só de fontes oficiais. Há estações de instituições privadas, indivíduos fanáticos por previsão do tempo (que formam uma espécie de "smartgrid" da Weather.com), e até dados de sensores colocados em aviões de 48 grandes companhias comerciais. São 55.000 voos diários, que fornecem informações da atmosfera em maiores altitudes.
Se 4 GB de dados coletados a cada segundo já parecem muito, pense que eles ainda precisam ser TRABALHADOS e, principalmente, DISTRIBUÍDOS para os milhões de dispositivos móveis, clientes e sites espalhados pelo mundo. A estrutura disponibilizada pela AWS para o Weather.com recebe cerca de 150.000 requisições por segundo, e esse número tende a crescer sempre que há nevascas, furacões, tornados, enchentes e outros acontecimentos meteorológicos em qualquer grande metrópole do planeta.

E a Internet das Coisas?

Partindo do princípio de que a maioria dos smartphones, hoje, contém diversos sensores, por que não utilizá-los para aprimorar ainda mais a previsão do tempo? Bryson diz que o Weather.com está de olho nessa tendência, e já estuda a melhor maneira de aproveitar esses novos inputs. "Podemos puxar informações dos smartphones relacionadas à pressão atmosférica, temperatura, trepidações... enfim, ainda estamos tentando entender como lidar com esses dados porque se a pessoa está dentro de um ambiente com ar condicionado, a informação está 'contaminada' de alguma maneira. A Internet das Coisas vai mudar a previsão do tempo de forma dramática nos próximos anos. Não posso te dizer exatamente como porque estamos apenas começando a entender esses dados. A boa notícia é que teremos toneladas de novos dados, mas precisamos saber como processá-los", completa.


Fonte: http://corporate.canaltech.com.br/materia/amazon/Weathercom-o-verdadeiro-caso-de-big-data/

OLTP X OLAP

Boa Tarde pessoal,
Nessa postagem vamos escrever um pouco sobre OLTP, OLAP e as principais diferenças entre os dois.
As siglas OLTP e OLAP são bastante utilizadas no universo do Business Intelligence (BI). Porém, ambas possuem conceitos divergentes e são aplicadas em contextos diferentes. Neste artigo entenderemos melhor cada uma.
O OLTP, do inglês "On-line Transaction Processing", é o termo usado para se referir aos sistemas transacionais, ou seja, os sistemas operacionais das organizações. São utilizados no processamento dos dados de rotina que são gerados diariamente através dos sistemas informacionais da empresa e dão suporte às funções de execução do negócio organizacional.
Já o OLAP, do inglês "On-line Analytical Processing", trata da capacidade de analisar grandes volumes de informações nas mais diversas perspectivas dentro de um Data Warehouse (DW). O OLAP também faz referência às ferramentas analíticas utilizadas no BI para a visualização das informações gerenciais e dá suporte para as funções de análises do negócio organizacional.
Os sistemas OLTP e OLAP se diferenciam em diversos outros aspectos.

 Vejamos:
Tabela comparativa OLAP x OLTP

OLTP OLAPEm resumo podemos dizer que a grande diferença está no fato de que um está direcionado ao funcionamento dentro do ambiente operacional (OLTP) e o outro com foco essencialmente gerencial (OLAP). 
Com as diferenças mostradas, percebemos que não se trata de um conceito ser melhor que o outro, mas sim de conceitos complementares e com objetivos distintos dentro da organização. Cabe à empresa se posicionar e utilizar ambos da melhor forma possível para conciliar desempenho operacional e o resultado.

Fonte: http://corporate.canaltech.com.br/o-que-e/business-intelligence/O-que-significa-OLTP-e-OLAP-na-pratica/

DataWarehouse X SGD's Heterogêneos

Boa tarde pessoal,
Após uma pequena pausa, estamos voltando com força total e com novos  temas.

Integração tradicional de BD heterogêneos:
  • Construir conversores/mediadores sobre BD heterogêneas.
 
  • Abordagem orientada-a-consulta.

  • Quando uma consulta é feita a um determinad BD, usa-se um meta-dicionário para traduzir a consulta em consultas apropriadas para outros BD’s envolvidas, e os resultados são integrados num conjunto resposta global.
 
  • Filtragem de informação complexa, competição por recursos.
 
 
Data warehouse:orientado-por-atualização, alta performance:
  • A informação de fontes heterogêneas é previamente integrada e guardada em data warehouses para consulta e análise direta.
 
Fonte: http://www.dcc.fc.up.pt/~pbrandao/aulas/0203/bdm/pdfs/DataWarehousing.pdf