Detalhes do Curso
Período de Inscrições: 08/09/2023 - 01/02/2024
Data de Início do Curso: 08/09/2023
Data de Fim do Curso: 03/02/2024
Horas de Esforço: 40 horas
Descrição geral
A ciência de dados é uma das peças fundamentais da 4ª revolução industrial e, neste contexto, a
classificação é a tarefa para descobrir modelos preditivos. Sendo o segundo curso da série Data
Science no MOOC Técnico, este curso apresenta todos os conceitos, metodologias e algoritmos
relevantes para treinar estes modelos sobre dados tabulares.
Tal como o curso Data Science: KDD process, este curso visa preparar novos profissionais em ciêncua
de dados para melhor compreender a tarefa em mãos, fornecendo os fundamentos científicos por trás de
cada um dos tópicos abordados.
O curso apresenta a tarefa de classificação e os seus objetivos, dando especial atenção às cinco tribos
de aprendizagem automática. Em cada uma delas, são apresentados os algoritmos de classificação mais
conhecidos e sua aplicação é ilustrada.
Mas tal como no curso anterior, aplicar os algoritmos não é suficiente para ter sucesso, e portanto,
são ainda apresentadas e discutidas as estratégias de treino mais populares, a par das métricas mais
importantes de avaliação. É dada especial atenção ao fenómeno de overfitting e à estimativa de desempenho.
Público-alvo
O curso destina-se especialmente a licenciados e/ou profissionais em engenharia informática ou afim,
com interesse em aplicações de ciência de dados.
Objetivos gerais
No final do curso, espera-se que os participantes tenham uma perceção completa do processo de descoberta de informação em toda a sua extensão, e que sejam capazes de o executar sobre conjuntos de dados tabulares.
Em particular, os participantes deverão ter a capacidade de caracterizar os dados a explorar, analisando as suas fragilidades e oportunidades, mas também a prepará-los para aumentar as suas potencialidades. Não menos importante, é a capacidade de avaliar os modelos descobertos, tanto na sua simplicidade como qualidade.
Pré-requisitos
Conhecimentos sobre os fundamentos da ciência de dados e do processo KDD.
Conhecimentos básicos de álgebra linear (nomeadamente matrizes, valores e vetores próprios),
probabilidades e estatística (estimadores básicos, funções de distribuição e de densidade de
probabilidades). Fluência em programação permitirá aos participantes a aplicação das técnicas
apresentadas a dados concretos, por exemplo seguindo tutoriais de Python ou R para os implementar.
Métodos de Avaliação
No final de cada módulo de conteúdo, encontra um conjunto de exercícios de seleção da afirmação verdadeira, que o ajudarão a auto-avaliar os seus conhecimentos. No final, é apresentado um exame, constituído por um conjunto de questões semelhantes às anteriores. Participantes que obtenham uma nota no exame igual ou superior a 60% receberão um certificado de conclusão (sem referência da nota final).
Tutores
Cláudia Antunes
Cláudia Antunes é Professora Associada no Instituto Superior Técnico – Universidade de Lisboa, onde
leciona desde 1998. Concluiu o seu doutoramento na mesma escola em 2005, no domínio da ciência de
dados, propondo novos métodos e metodologias para lidar com dados temporais, em particular para a
descoberta de padrões sequenciais. Os seus principais interesses de investigação estão centrados na
área da ciência de dados, com ênfase na incorporação de conhecimento de domínio e exploração da
temporalidade, para enriquecer o processo de classificação. Já coordenou e participou em vários
projetos de investigação científica, nacionais e europeus, e conta com mais de setenta publicações
em conferências e revistas científicas internacionais. A par deste trabalho, orienta alunos de mestrado
e doutoramento, contando cerca de quarenta os que concluíram os seus trabalhos sob sua orientação. A
sua atividade letiva nos últimos vinte anos, tem sido dedicada ao de disciplinas de ciência de dados
e programação, tanto em programas de graduação como de pós-graduação.
Bibliografia recomendada
Data Mining and Machine Learning: Fundamental Concepts and Algorithms
(2nd edition): Mohammed J. Zaki and Wagner Meira, Jr 2020 ISBN: 978-1108473989
Course Details
Enrollment Period: 08/09/2023 - 01/02/2024
Course Start Date: 08/09/2023
Course End Date: 03/02/2024
Effort Hours: 40 hours
About This Course
Data Science is one of the fundamental pieces in the 4th industrial revolution, and classification is its
task for discovering predictive models from data. Being the second course on the Data Science series in
MOOC Técnico, it introduces all the relevant concepts, methodologies and algorithms to train these models
over tabular data.
Like the course Data Science: KDD process, this course aims for preparing new data scientists to better
understand the task at hand, providing the scientific fundamentals behind each one of the topics covered.
The course introduces the classification task and its goals, giving particular attention to the five tribes
from machine learning. From each one of these, the best-well known classification algorithms are presented
and its application is illustrated.
But as before, applying the algorithms is not enough, and therefore, the most popular training strategies
and evaluation metrics are discussed. Particular attention is given to the overfitting phenomenon and
performance estimation.
Main goals
No final do curso, espera-se que os participantes tenham um entendimento completo da tarefa de classificação.
Em particular, devem ser capazes de treinar qualquer modelo de classificação sobre dados tabulares,
escolhendo a melhor estratégia de treino, avaliando os seus resultados, estimando o desempenho do modelo e
dentificando as situações de overfitting.
Os participantes devem ser capazes de distinguir entre as cinco principais abordagens de classificação:
analogistas, bayesianos, simbolistas, conexionistas e evolucionários. Além disso, devem ser capazes de aplicar
os seus algoritmos mais conhecidos, nomeadamente: KNN, Naive Bayes, C4.5, CART, gradiente descendente e backpropagation.
Além disso, os participantes devem ser capazes de compreender a ideia e os benefícios por detrás da
combinação de modelos - ensembles, em geral, e de bagging e boosting, em particular, sendo capazes de aplicar
Random Forests e Gradient boosting a dados tabulares.
Target
The course is targeted at graduates and / or professionals in computer science and engineering, with an
interest in data science applications.
Requirements
Knowledge of the fundaments of data science and the KDD process.
Basic knowledge of linear algebra (namely matrices, eigenvalues and eigenvectors), probabilities and
statistics (basic estimators, probability distribution/density functions). Programming fluency will
allow participants to apply presented techniques to concrete data, for example following Python or R
tutorials to implement them.
Evaluation methods
At the end of each content module, you will find a set of exercises on selecting the true statement, which will help you on self-assessing your level of knowledge. At the end, you will be faced with an exam, consisting of a set of questions similar to the previous ones.
Participants who obtain an exam grade equal to or greater than 60% receive a completion certificate (without reference to the final grade).
Course Staff
Cláudia Antunes
Cláudia Antunes is an Associate Professor at Instituto Superior Técnico – Universidade de Lisboa.
Concluded her PhD in Information Systems and Computer Engineering by the same university, on 2005,
in the data science domain, proposing new methods and methodologies to deal with temporal data,
in particular for mining sequential patterns. Her main research interests are in the area of Data
Science, in particular to what concerns to the usage of knowledge domain and the exploration of the
temporality to enrich the classification task. She has coordinated and participated on several national
and European research projects, and has more than seventy papers published in journals and international
conferences. Along with this work, she supervise Master and PhDs students, accounting for about forty
students who concluded their work under her supervision. She has been lecturing data science courses
for twenty years, both in graduation and post-graduation programs.
Bibliography
Data Mining and Machine Learning: Fundamental Concepts and Algorithms
(2nd edition): Mohammed J. Zaki and Wagner Meira, Jr 2020 ISBN: 978-1108473989