DataScience: Classification

A ciência de dados é uma das peças fundamentais da 4ª revolução industrial e, neste contexto, a classificação é a tarefa para descobrir modelos preditivos. Sendo o segundo curso da série Data Science no MOOC Técnico, este curso apresenta todos os conceitos, metodologias e algoritmos relevantes para treinar estes modelos sobre dados tabulares.

A matrícula neste curso é apenas por convite

Português | English

Descrição geral

Tal como o curso Data Science: KDD process, este curso visa preparar novos profissionais em ciêncua de dados para melhor compreender a tarefa em mãos, fornecendo os fundamentos científicos por trás de cada um dos tópicos abordados.

O curso apresenta a tarefa de classificação e os seus objetivos, dando especial atenção às cinco tribos de aprendizagem automática. Em cada uma delas, são apresentados os algoritmos de classificação mais conhecidos e sua aplicação é ilustrada.
Mas tal como no curso anterior, aplicar os algoritmos não é suficiente para ter sucesso, e portanto, são ainda apresentadas e discutidas as estratégias de treino mais populares, a par das métricas mais importantes de avaliação. É dada especial atenção ao fenómeno de overfitting e à estimativa de desempenho.

Público-alvo

O curso destina-se especialmente a licenciados e/ou profissionais em engenharia informática ou afim, com interesse em aplicações de ciência de dados.

Objetivos gerais

No final do curso, espera-se que os participantes tenham uma perceção completa do processo de descoberta de informação em toda a sua extensão, e que sejam capazes de o executar sobre conjuntos de dados tabulares.
Em particular, os participantes deverão ter a capacidade de caracterizar os dados a explorar, analisando as suas fragilidades e oportunidades, mas também a prepará-los para aumentar as suas potencialidades. Não menos importante, é a capacidade de avaliar os modelos descobertos, tanto na sua simplicidade como qualidade.

Pré-requisitos

Conhecimentos sobre os fundamentos da ciência de dados e do processo KDD. Conhecimentos básicos de álgebra linear (nomeadamente matrizes, valores e vetores próprios), probabilidades e estatística (estimadores básicos, funções de distribuição e de densidade de probabilidades). Fluência em programação permitirá aos participantes a aplicação das técnicas apresentadas a dados concretos, por exemplo seguindo tutoriais de Python ou R para os implementar.

Tutores

Cláudia Antunes

Cláudia Antunes é Professora Associada no Instituto Superior Técnico – Universidade de Lisboa, onde leciona desde 1998. Concluiu o seu doutoramento na mesma escola em 2005, no domínio da ciência de dados, propondo novos métodos e metodologias para lidar com dados temporais, em particular para a descoberta de padrões sequenciais. Os seus principais interesses de investigação estão centrados na área da ciência de dados, com ênfase na incorporação de conhecimento de domínio e exploração da temporalidade, para enriquecer o processo de classificação. Já coordenou e participou em vários projetos de investigação científica, nacionais e europeus, e conta com mais de setenta publicações em conferências e revistas científicas internacionais. A par deste trabalho, orienta alunos de mestrado e doutoramento, contando cerca de quarenta os que concluíram os seus trabalhos sob sua orientação. A sua atividade letiva nos últimos vinte anos, tem sido dedicada ao de disciplinas de ciência de dados e programação, tanto em programas de graduação como de pós-graduação.

Bibliografia recomendada

Data Mining and Machine Learning: Fundamental Concepts and Algorithms (2nd edition): Mohammed J. Zaki and Wagner Meira, Jr 2020 ISBN: 978-1108473989

Este curso e os seus respetivos conteúdos estão licenciados através da licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

About This Course

Data Science is one of the fundamental pieces in the 4th industrial revolution, and classification is its task for discovering predictive models from data. Being the second course on the Data Science series in MOOC Técnico, it introduces all the relevant concepts, methodologies and algorithms to train these models over tabular data.

Like the course Data Science: KDD process, this course aims for preparing new data scientists to better understand the task at hand, providing the scientific fundamentals behind each one of the topics covered.

The course introduces the classification task and its goals, giving particular attention to the five tribes from machine learning. From each one of these, the best-well known classification algorithms are presented and its application is illustrated.
But as before, applying the algorithms is not enough, and therefore, the most popular training strategies and evaluation metrics are discussed. Particular attention is given to the overfitting phenomenon and performance estimation.

Main goals

No final do curso, espera-se que os participantes tenham um entendimento completo da tarefa de classificação.
Em particular, devem ser capazes de treinar qualquer modelo de classificação sobre dados tabulares, escolhendo a melhor estratégia de treino, avaliando os seus resultados, estimando o desempenho do modelo e dentificando as situações de overfitting.
Os participantes devem ser capazes de distinguir entre as cinco principais abordagens de classificação: analogistas, bayesianos, simbolistas, conexionistas e evolucionários. Além disso, devem ser capazes de aplicar os seus algoritmos mais conhecidos, nomeadamente: KNN, Naive Bayes, C4.5, CART, gradiente descendente e backpropagation.
Além disso, os participantes devem ser capazes de compreender a ideia e os benefícios por detrás da combinação de modelos - ensembles, em geral, e de bagging e boosting, em particular, sendo capazes de aplicar Random Forests e Gradient boosting a dados tabulares.

Target

The course is targeted at graduates and / or professionals in computer science and engineering, with an interest in data science applications.

Requirements

Knowledge of the fundaments of data science and the KDD process. Basic knowledge of linear algebra (namely matrices, eigenvalues and eigenvectors), probabilities and statistics (basic estimators, probability distribution/density functions). Programming fluency will allow participants to apply presented techniques to concrete data, for example following Python or R tutorials to implement them.

Course Staff

Cláudia Antunes

Cláudia Antunes is an Associate Professor at Instituto Superior Técnico – Universidade de Lisboa. Concluded her PhD in Information Systems and Computer Engineering by the same university, on 2005, in the data science domain, proposing new methods and methodologies to deal with temporal data, in particular for mining sequential patterns. Her main research interests are in the area of Data Science, in particular to what concerns to the usage of knowledge domain and the exploration of the temporality to enrich the classification task. She has coordinated and participated on several national and European research projects, and has more than seventy papers published in journals and international conferences. Along with this work, she supervise Master and PhDs students, accounting for about forty students who concluded their work under her supervision. She has been lecturing data science courses for twenty years, both in graduation and post-graduation programs.

Bibliography

Data Mining and Machine Learning: Fundamental Concepts and Algorithms (2nd edition): Mohammed J. Zaki and Wagner Meira, Jr 2020 ISBN: 978-1108473989

The following course and its contents are licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.