MC01 – Big data e visualização: Aplicação em genética de plantas e mineração de texto

Ministrante: Paulo Canas Rodrigues – UFBA

Resumo: O aumento de dados coletados diariamente, em muitas áreas do conhecimento, requer o desenvolvimento de novas estratégias estatísticas para os analisar e avaliar as hipóteses de pesquisa num intervalo de tempo aceitável. Ao analisar dados com grandes dimensões, as técnicas de redução de dimensionalidade tais como a decomposição em valores singulares e a análise de componentes principais, desempenham uma importância vital. Por outro lado, quando os dados são não-estruturados (e.g. texto, imagem, video), outras estratégias deverão ser utilizadas.
Nas primeiras duas horas irei fazer uma introdução geral a Big Data, redução de dimensionalidade e genética quantitativa. Nas últimas duas horas iremos usar o laboratório para colocar em prática algumas técnicas de análise e visualização com foco especial em genética de plantas e mineração de texto. O software utilizado será o R e os pacotes principais serão o qtl e o twitteR.