• beatrizbenezra

Data Mining passo a passo

O que é mineração de dados? A mineração de dados trata da busca de padrões coerentes em grandes volumes de dados mediante a aplicação de diferentes tipos de algoritmos.

A complexidade do processo de mineração de dados reside na execução concorrente de vários procedimentos e no alto número de variáveis envolvidas. A necessidade da contínua interação com o negócio e a constante necessidade de validação dos resultados parciais tornam o processo ainda mais complexo.

A mineração de dados começa no negócio. O negócio define os objetivos que direcionam todo o processo de mineração. A forma como estes objetivos são definidos gera um amplo espectro de possíveis resultados. No nível mais simples do espectro, os objetivos do negócio são delineados por hipóteses pré-definidas que serão posteriormente comprovadas (muestionamentos que os dados precisam responder (Knowledge Discovery in Database).

Uma vez definidos os objetivos do Negócio identificam-se seus requisitos. A definição dos requisitos do Negócio deve ser clara e consistente, já que os requisitos estabelecem premissas para o seguinte passo do processo e ainda determinam o os critérios de validação dos resultados obtidos na execução do processo de mineração.

Os requisitos para o Modelo de Dados são definidos a partir dos requisitos do negócio e estabelecem a diretrizes para a construção do Modelo de Dados. Um modelo de dados é um conjunto definido de dados e um algoritmo que será aplicado a eles para a obtenção dos padrões de dados que se caracterizam como produtos da mineração.

A construção do modelo de dados acontece mediante a ação de três procedimentos que são executados concorrentemente, onde cada um deles gera impactos nos outros dois. Estes procedimentos são: conhecimento e tratamento dos dados, definição dos algoritmos a aplicar nos dados e definição da ferramenta para construir o modelo de dados.

Conhecimento e tratamento dos dados. Conhecer os dados (tipo, conteúdo, relacionamentos, etc.) é fundamental para escolher os componentes usados para integrar o modelo de dados. Os dados precisam ser validados, tratados e integrados para poder atender os requisitos definidos para o modelo. A intervenção do negócio em este procedimento é fundamental.

Definição dos algoritmos. Neste procedimento escolhe-se o algoritmo que será aplicado nos dados para construir o modelo. O conjunto de opções é muito amplo! Existe uma longa lista de questões que devem ser respondidas até se encontrar o algoritmo mais adequado. Deseja-se gerar um modelo de predição, de classificação, estimar, segmentar ...? Serão usados arvores de decisão, k-Means, análise de texto...? Quais tipos de dados comporão o modelo? ...

Definição da Ferramenta. A ferramenta deve estar de acordo com os dados e com o algoritmo escolhido. Cada ferramenta suporta diferentes tipos e volumes de dados e diferentes tipos de algoritmos. Também cada ferramenta demanda diferentes recursos de Hardware. Algumas ferramentas apresentam recursos de visualização. A visualização é uma ótima opção para facilitar o processo de mineração. Algumas ferramentas apresentam a possibilidade de diferentes configurações para cada algoritmo que permitem aplicar. As diferentes configurações oferecem opções para explorar mais amplamente o algoritmo escolhido permitindo gerar diferentes modelos da dados. Para quem conhece ferramentas de desenvolvimento, ainda se abre um leque mais amplo.

Os três procedimentos convergem para a construção do modelo de dados. O modelo e dados é aplicado aos dados selecionados gerando padrões que voltam volta ao negócio, em forma de insights, para ser validados.

Complexo? Sem dúvida!!!!

Quer saber mais?

Leia IOODA : Roteiro para o desenvolvimento dos aspectos computacionais da inteligência organizacional em organizações orientadas a dados – IOODA