DataScience: KDD Process

Descrição geral

A Ciência de Dados, conjuntamente com a Inteligência Artificial e o Machine Learning, aparecem hoje como o santo graal da evolução da sociedade de informação, mas não chegando tão longe, são peças fundamentais na 4ª revolução industrial.

Muitas são as oportunidades para os que têm os conhecimentos fundamentais nesta área, uma vez que a oferta de emprego em Ciência de Dados nos últimos anos disparou, sendo por muitos considerada como a profissão mais sexy do século XXI.

O presente curso desmistifica o tema, apresentando os tópicos fundamentais da área de uma forma simples, e descrevendo cada uma das etapas do processo de descoberta de informação a partir de bases de dados. É dada particular importância às diferentes fases do processo, nomeadamente à análise exploratória (data profiling), à preparação dos dados, incluindo a reengenharia de variáveis (feature engineering) e à avaliação da informação descoberta. Por último, são ainda descritas as tarefas de modelação mais populares (mining tasks), como são a classificação, previsão, segmentação (clustering), descoberta de padrões e deteção de anomalias.

Objetivos gerais

No final do curso, espera-se que os participantes tenham uma perceção completa do processo de descoberta de informação em toda a sua extensão, e que sejam capazes de o executar sobre conjuntos de dados tabulares.
Em particular, os participantes deverão ter a capacidade de caracterizar os dados a explorar, analisando as suas fragilidades e oportunidades, mas também a prepará-los para aumentar as suas potencialidades. Não menos importante, é a capacidade de avaliar os modelos descobertos, tanto na sua simplicidade como qualidade.

Pré-requisitos

Conhecimentos básicos de álgebra linear (nomeadamente matrizes, valores e vetores próprios), probabilidades e estatística (estimadores básicos, funções de distribuição e de densidade de probabilidades). Fluência em programação permitirá aos participantes a aplicação das técnicas apresentadas a dados concretos, por exemplo seguindo tutoriais de Python ou R para os implementar.

Tutores

Cláudia Antunes

Cláudia Antunes é Professora Associada no Instituto Superior Técnico – Universidade de Lisboa, onde leciona desde 1998. Concluiu o seu doutoramento na mesma escola em 2005, no domínio da ciência de dados, propondo novos métodos e metodologias para lidar com dados temporais, em particular para a descoberta de padrões sequenciais. Os seus principais interesses de investigação estão centrados na área da ciência de dados, com ênfase na incorporação de conhecimento de domínio e exploração da temporalidade, para enriquecer o processo de classificação. Já coordenou e participou em vários projetos de investigação científica, nacionais e europeus, e conta com mais de setenta publicações em conferências e revistas científicas internacionais. A par deste trabalho, orienta alunos de mestrado e doutoramento, contando cerca de quarenta os que concluíram os seus trabalhos sob sua orientação. A sua atividade letiva nos últimos vinte anos, tem sido dedicada ao de disciplinas de ciência de dados e programação, tanto em programas de graduação como de pós-graduação.

About This Course

Data Science, along with Artificial Intelligence and Machine Learning, appear today as the holy grail of information society evolution, but if not reaching so far, they are certainly fundamental pieces in the 4th industrial revolution.

There are many opportunities for those who have the fundamental knowledge in this area, since the job offer in Data Science in recent years has skyrocketed, being considered by many as the sexiest job in the 21st century.

The present course demystifies the theme, presenting the fundamental topics of the area in a simple way, and describing each of the stages of the discovery information process. Particular importance is given to the different steps in the process, namely data profiling, data preparation, including feature engineering and the evaluation of the discovered information. Finally, the most popular mining tasks are described, such as classification, forecasting, clustering, pattern mining and anomaly detection.

Main goals

At the end of the course, participants are expected to have a complete understanding of the information discovery process to its full extent, and to be able to perform it over tabular data.
In particular, participants should be able to characterize the data to be explored, analyzing their weaknesses and opportunities, but also to prepare them to increase their potential. No less important, is the ability to evaluate the models discovered, both in their simplicity and quality.

Requirements

Basic knowledge of linear algebra (namely matrices, eigenvalues and eigenvectors), probabilities and statistics (basic estimators, probability distribution/density functions). Programming fluency will allow participants to apply presented techniques to concrete data, for example following Python or R tutorials to implement them.

Course Staff

Cláudia Antunes

Cláudia Antunes is an Associate Professor at Instituto Superior Técnico – Universidade de Lisboa. Concluded her PhD in Information Systems and Computer Engineering by the same university, on 2005, in the data science domain, proposing new methods and methodologies to deal with temporal data, in particular for mining sequential patterns. Her main research interests are in the area of Data Science, in particular to what concerns to the usage of knowledge domain and the exploration of the temporality to enrich the classification task. She has coordinated and participated on several national and European research projects, and has more than seventy papers published in journals and international conferences. Along with this work, she supervise Master and PhDs students, accounting for about forty students who concluded their work under her supervision. She has been lecturing data science courses for twenty years, both in graduation and post-graduation programs.

Técnico Lisboa: datascience_kddX
DataScience: KDD Process

DataScience: KDD Process

Descrição geral

Público-alvo

Objetivos gerais

Pré-requisitos

Tutores

Cláudia Antunes

Bibliografia recomendada

About This Course

Main goals

Target

Requirements

Course Staff

Cláudia Antunes

Bibliography