O que é mineração de dados? A mineração de dados trata da busca de padrões coerentes em grandes volumes de dados mediante a aplicação de diferentes tipos de algoritmos.
A complexidade do processo de mineração de dados reside na execução concorrente de vários procedimentos e no alto número de variáveis envolvidas. A necessidade da contínua interação com o negócio e a constante necessidade de validação dos resultados parciais tornam o processo ainda mais complexo.
A mineração de dados começa no negócio. O negócio define os objetivos que direcionam todo o processo de mineração. A forma como estes objetivos são definidos gera um amplo espectro de possíveis resultados. No nível mais simples do espectro, os objetivos do negócio são delineados por hipóteses pré-definidas que serão posteriormente comprovadas (muestionamentos que os dados precisam responder (Knowledge Discovery in Database).
Uma vez definidos os objetivos do Negócio identificam-se seus requisitos. A definição dos requisitos do Negócio deve ser clara e consistente, já que os requisitos estabelecem premissas para o seguinte passo do processo e ainda determinam o os critérios de validação dos resultados obtidos na execução do processo de mineração.
Os requisitos para o Modelo de Dados são definidos a partir dos requisitos do negócio e estabelecem a diretrizes para a construção do Modelo de Dados. Um modelo de dados é um conjunto definido de dados e um algoritmo que será aplicado a eles para a obtenção dos padrões de dados que se caracterizam como produtos da mineração.
A construção do modelo de dados acontece mediante a ação de três procedimentos que são executados concorrentemente, onde cada um deles gera impactos nos outros dois. Estes procedimentos são: conhecimento e tratamento dos dados, definição dos algoritmos a aplicar nos dados e definição da ferramenta para construir o modelo de dados.
Conhecimento e tratamento dos dados. Conhecer os dados (tipo, conteúdo, relacionamentos, etc.) é fundamental para escolher os componentes usados para integrar o modelo de dados. Os dados precisam ser validados, tratados e integrados para poder atender os requisitos definidos para o modelo. A intervenção do negócio em este procedimento é fundamental.
Definição dos algoritmos. Neste procedimento escolhe-se o algoritmo que será aplicado nos dados para construir o modelo. O conjunto de opções é muito amplo! Existe uma longa lista de questões que devem ser respondidas até se encontrar o algoritmo mais adequado. Deseja-se gerar um modelo de predição, de classificação, estimar, segmentar ...? Serão usados arvores de decisão, k-Means, análise de texto...? Quais tipos de dados comporão o modelo? ...
Definição da Ferramenta. A ferramenta deve estar de acordo com os dados e com o algoritmo escolhido. Cada ferramenta suporta diferentes tipos e volumes de dados e diferentes tipos de algoritmos. Também cada ferramenta demanda diferentes recursos de Hardware. Algumas ferramentas apresentam recursos de visualização. A visualização é uma ótima opção para facilitar o processo de mineração. Algumas ferramentas apresentam a possibilidade de diferentes configurações para cada algoritmo que permitem aplicar. As diferentes configurações oferecem opções para explorar mais amplamente o algoritmo escolhido permitindo gerar diferentes modelos da dados. Para quem conhece ferramentas de desenvolvimento, ainda se abre um leque mais amplo.
Os três procedimentos convergem para a construção do modelo de dados. O modelo e dados é aplicado aos dados selecionados gerando padrões que voltam volta ao negócio, em forma de insights, para ser validados.
Complexo? Sem dúvida!!!!
Quer saber mais?