Coleta e Mineração de Dados na Área da Saúde

A definição correta do diagnóstico médico de um paciente e a escolha por procedimentos, processos clínicos e opções terapêuticas daí decorrentes são altamente dependentes da existência de informações concretas, tais como seus históricos de avaliação clínica e resultados laboratoriais – fatores de grande influência para a atuação dos profissionais no âmbito da saúde.

Tal obtenção é, sobremaneira, uma atividade complexa uma vez que a origem e qualidade dos dados primitivos dependem não apenas da colaboração do próprio paciente, como também de seu mero registro e também da experiência do próprio corpo clínico envolvido.

A utilização de sistemas de informação voltados para a gestão clínica permitiu a criação de técnicas como o KDD – Knowledge Discovery in Database (descoberta do conhecimento em base de dados) –, que vem se mostrando extremamente eficaz no desempenho das funções do gestor.

O KDD é um processo derivado do ETL Extract Transform and Load (Extração Transformação e Carga) –, clássico, composto pela seleção de dados, pré-processamento, transformação e estabelecimento de padrões úteis na extração do conhecimento; nele, uma grande quantidade de dados é refinada e transformada em conhecimentos relevantes por meio da aplicação de uma técnica de mineração de dados, discutida a seguir.

A mineração de dados (ou Data Mining) é uma técnica de exploração e análise de uma massa de dados por meio automático ou semiautomático com o fim de identificar e descobrir padrões nestes, por meio de correlações entre entradas e saídas, muito difíceis de serem identificadas pela ótica humana visto a grande quantidade de conexões entre os dados disponíveis e, portanto, estudadas por meio de métodos inteligentes.

Além de visar auxiliar no fornecimento de ferramentas analíticas e preditivas de forma aprofundada, a mineração de dados tem por objetivo auxiliar na tomada de decisões, detecção de fraudes e abusos, no auxílio à escolha por tratamentos, nas pesquisas de sintomas e na identificação das características de doenças. Em sua maioria, a massa de dados que irá alimentar a base de pesquisa geralmente traz informações de difícil visualização e bastantes dados incongruentes – tornando, por conseguinte, a análise mais difícil e necessitando do uso de técnicas para seu refinamento.

O processo de DM (Data Mining) aplica, em suas etapas, conhecimentos da área de estatística e IA (Inteligência Artificial): concedendo a este o status de “Processo Inteligente” através de técnicas de análise como as redes neurais, uso de árvores de decisão e algoritmos genéticos.

A estatística, por sua vez, realiza a análise de dados valendo-se de técnicas de regressão e agrupamento, termos e cálculos, permitindo a identificação de associações, isto, após um grande processo de identificação das relevâncias de cada observação.

As opções mais factíveis para análise dos padrões e regras definidas estrategicamente devem ser feitas pelo administrador dos dados, e a escolha pelo modo de armazenamento pode utilizar tanto um padrão estrutural logicamente definido – típico de bancos de dados do tipo SQL, estruturais – ou, mais comumente, em bancos desestruturados, ditos de padrão NoSQL, que são baseados em grafos, orientado a colunas, documentos, ou outros métodos.

Com o advento das técnicas de manipulação do Big Data, os bancos não relacionais têm sido adotados com maior popularidade devido sua estrutura dinâmica, viabilizando alterações mais flexíveis e aproveitando das diversas origens dos dados – que exigiam trabalho árduo de transformação aos padrões relacionais, isto, quando possível.

Um exemplo desta atividade foi mostrada no filme “Big Hero”, produzido pelos estúdios Walt Disney em 2014, em que é possível pressupor que o personagem Baymax se utiliza da coleta de informações em uma base de dados para obtenção de informações ainda desconhecida por seu sistema, além de uma inteligência artificial extremamente avançada, permitindo inclusive sua auto programação – implementada como tratamento no paciente logo após seu diagnóstico.

O Baymax é uma espécie de Dr. Watson do futuro, um agente de saúde individual que consulta automaticamente uma base de dados e executa procedimentos médicos incluindo pronto atendimento. Suas atividades não substituem as de um médico, mas auxiliam o paciente necessitado de intervenções disruptivas.

A reportagem “Nanotecnologia e big data poderão compor sistema de apoio ao diagnóstico médico” de José Tadeu Arantes (2016) tem como referência artigos que apresentam de maneira sólida a possibilidade de uma base de dados conter diagnósticos médicos para consulta em qualquer localidade do planeta. Seria um avanço espetacular possuir, em tempo real, históricos e atualizações da saúde de qualquer indivíduo armazenados em uma base de dados – gigantesca –, consultada por médicos de todo mundo, permitindo uma prática de saúde eficiente e com qualidade aprimorada.

Referências:

ARANTES, José Tadeu. Nanotecnologia e big data poderão compor sistema de apoio ao diagnóstico médico. Link: http://agencia.fapesp.br/nanotecnologia-e-big-data-poderao-compor-sistema-de-apoio-ao-diagnostico-medico/23290/.