VDS AI – Análise de dados de arrastar e soltar

vds ai
Image: Melanie Gonick

Views: 91

O sistema permite que os não-especialistas usem modelos de aprendizado de máquina para fazer previsões para pesquisas médicas, vendas e muito mais.

Cortesia MIT News Office Por Rob Matheson |: Nos filmes do Homem de Ferro, Tony Stark usa um computador holográfico para projetar dados 3-D no ar, manipulá-los com as mãos e encontrar soluções para seus problemas de super-heróis. Na mesma linha, pesquisadores do MIT e da Brown University desenvolveram um sistema de análise de dados interativa que roda em telas sensíveis ao toque e permite que todos – não apenas gênios tecnológicos bilionários – resolvam problemas do mundo real. VDS AI

Por anos, os pesquisadores vêm desenvolvendo um sistema de ciência de dados interativo chamado Northstar, que roda na nuvem, mas tem uma interface que suporta qualquer dispositivo touchscreen, incluindo smartphones e grandes quadros interativos. Os usuários alimentam os conjuntos de dados do sistema e manipulam, combinam e extraem recursos em uma interface amigável, usando os dedos ou uma caneta digital, para revelar tendências e padrões.

Em um artigo apresentado na conferência ACM SIGMOD, os pesquisadores detalharam um novo componente da Northstar, chamado VDS para “cientista de dados virtuais”, que gera instantaneamente modelos de aprendizado de máquina para executar tarefas de predição em seus conjuntos de dados. Os médicos, por exemplo, podem usar o sistema para ajudar a prever quais pacientes são mais propensos a ter certas doenças, enquanto os donos de empresas podem querer prever as vendas. Se usar um quadro interativo, todos também poderão colaborar em tempo real.

O objetivo é democratizar a ciência de dados, facilitando a realização de análises complexas, com rapidez e precisão.

“Até mesmo um dono de café que não conhece ciência de dados deve ser capaz de prever suas vendas nas próximas semanas para descobrir quanto café comprar”, diz o co-autor e experiente líder do projeto Northstar, Tim Kraska. professor associado de engenharia elétrica e ciência da computação no Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e co-diretor fundador do novo Data System e do AI Lab (DSAIL). “Nas empresas que têm cientistas de dados, há muitas idas e vindas entre os cientistas de dados e os não especialistas; portanto, também podemos colocá-los em uma sala para fazer análises juntos.”

O VDS é baseado em uma técnica cada vez mais popular em inteligência artificial chamada Automated Machine-Learning (AutoML), que permite que pessoas com conhecimentos de ciência de dados limitados treinem modelos de AI para fazer previsões baseadas em seus conjuntos de dados. Atualmente, a ferramenta lidera a competição de aprendizado automático de máquina DARPA D3M, que a cada seis meses decide sobre a ferramenta AutoML de melhor desempenho.

Juntando-se a Kraska no papel estão: o primeiro autor Zeyuan Shang, um estudante de pós-graduação, e Emanuel Zgraggen, um pós-doc e principal colaborador da Northstar, ambos da EECS, CSAIL e DSAIL; Benedetto Buratti, Yeounoh Chung, Philipp Eichmann e Eli Upfal, todos de Brown; e Carsten Binnig, que se mudou recentemente de Brown para a Universidade Técnica de Darmstadt, na Alemanha.

vds ai
Uma “tela ilimitada” para análise

O novo trabalho se baseia em anos de colaboração na Northstar entre pesquisadores do MIT e Brown. Ao longo de quatro anos, os pesquisadores publicaram vários artigos detalhando componentes do Northstar, incluindo a interface interativa, operações em múltiplas plataformas, resultados acelerados e estudos sobre o comportamento do usuário.

Northstar começa como uma interface branca em branco. Usuários que carregam conjuntos de dados no sistema, que aparecem em uma caixa de “conjuntos de dados” à esquerda. Todos os rótulos de dados preencherão automaticamente uma caixa “atributos” separada abaixo. Há também uma caixa de “operadores” que contém vários algoritmos, bem como a nova ferramenta AutoML. Todos os dados são armazenados e analisados ​​na nuvem.

vds ai
Touchscreen Analytics

Os pesquisadores gostam de demonstrar o sistema em um conjunto de dados público que contém informações sobre pacientes de unidades de terapia intensiva. Considere pesquisadores médicos que desejam examinar co-ocorrências de certas doenças em certas faixas etárias. Eles arrastam e soltam no meio da interface um algoritmo de checagem de padrões, que inicialmente aparece como uma caixa em branco. Como entrada, eles se movem para os recursos da doença de caixa rotulados, digamos, “sangue”, “infecciosos” e “metabólicos”. As porcentagens dessas doenças no conjunto de dados aparecem na caixa. Em seguida, eles arrastam o recurso “idade” para a interface, que exibe um gráfico de barras da distribuição etária do paciente. Desenhar uma linha entre as duas caixas liga-as. Ao circular as faixas etárias, o algoritmo calcula imediatamente a co-ocorrência das três doenças na faixa etária.

“É como uma tela grande e sem limites, na qual você pode definir como deseja tudo”, diz Zgraggen, que é o principal inventor da interface interativa da Northstar. “Então, você pode vincular as coisas para criar perguntas mais complexas sobre seus dados.”

vds ai
Touchscreen Analytics

Aproximando AutoML

Com o VDS, os usuários agora também podem executar análises preditivas nesses dados, adaptando os modelos às suas tarefas, como predição de dados, classificação de imagens ou análise de estruturas gráficas complexas.

Usando o exemplo acima, os pesquisadores querem prever quais pacientes podem ter doenças do sangue com base em todos os recursos do conjunto de dados. Eles arrastam e soltam “AutoML” da lista de algoritmos. Primeiro, produzirá uma caixa em branco, mas com uma guia de “destino”, na qual eles descartariam o recurso de “sangue”. O sistema localizará automaticamente os pipelines de aprendizado de máquina de melhor desempenho, apresentados como guias com percentuais de precisão constantemente atualizados. Os usuários podem interromper o processo a qualquer momento, refinar a pesquisa e examinar as taxas de erros, estrutura, cálculos e outras coisas de cada modelo.

De acordo com os pesquisadores, o VDS é a ferramenta AutoML mais rápida e interativa até hoje, graças, em parte, ao seu “mecanismo de estimativa” personalizado. O mecanismo fica entre a interface e o armazenamento na nuvem. O mecanismo de alavancagem cria automaticamente várias amostras representativas de um conjunto de dados que podem ser processadas progressivamente para produzir resultados de alta qualidade em segundos.

“Juntamente com meus coautores, passei dois anos projetando o VDS para imitar como um cientista de dados pensa”, diz Shang, o que significa identificar instantaneamente quais modelos e etapas de pré-processamento devem ou não ser executados em determinadas tarefas, com base em várias regras codificadas . Escolhe primeiro de uma lista grande desses possíveis pipelines de aprendizado de máquina e executa simulações no conjunto de amostras. Ao fazer isso, ele lembra os resultados e refina sua seleção. Depois de entregar resultados aproximados rápidos, o sistema refina os resultados no back end. Mas os números finais são geralmente muito próximos da primeira aproximação.

“Para usar um preditor, você não precisa esperar quatro horas para recuperar seus primeiros resultados. Você já quer ver o que está acontecendo e, se detectar um erro, poderá corrigi-lo imediatamente. Isso normalmente não é possível em nenhum outro sistema ”, diz Kraska. O estudo prévio dos pesquisadores, na verdade, “mostra que, no momento em que você adia o resultado dos usuários, eles começam a perder o envolvimento com o sistema”.

Os pesquisadores avaliaram a ferramenta em 300 conjuntos de dados do mundo real. Em comparação com outros sistemas AutoML de última geração, as aproximações do VDS foram tão precisas, mas foram geradas em segundos, o que é muito mais rápido do que outras ferramentas, que operam em minutos a horas.

Em seguida, os pesquisadores estão procurando adicionar um recurso que alerta os usuários sobre potenciais viés de dados ou erros. Por exemplo, para proteger a privacidade do paciente, às vezes os pesquisadores rotularão conjuntos de dados médicos com pacientes com 0 (se não souberem a idade) e 200 (se o paciente tiver mais de 95 anos). Mas os novatos podem não reconhecer tais erros, o que poderia eliminar completamente suas análises.

“Se você é um novo usuário, pode obter resultados e achar que eles são ótimos”, diz Kraska. “Mas podemos alertar as pessoas que, de fato, podem existir alguns valores discrepantes no conjunto de dados que podem indicar um problema”.

 

Seja o primeiro a comentar

Faça um comentário

Seu e-mail não será publicado.


*