DataScience: KDD Process

Detalhes do Curso

Período de Inscrições: 08/09/2023 - 01/02/2024

Data de Início do Curso: 08/09/2023

Data de Fim do Curso: 03/02/2024

Horas de Esforço: 40 horas

Descrição geral

A Ciência de Dados, conjuntamente com a Inteligência Artificial e o Machine Learning, aparecem hoje como o santo graal da evolução da sociedade de informação, mas não chegando tão longe, são peças fundamentais na 4ª revolução industrial.

Muitas são as oportunidades para os que têm os conhecimentos fundamentais nesta área, uma vez que a oferta de emprego em Ciência de Dados nos últimos anos disparou, sendo por muitos considerada como a profissão mais sexy do século XXI.

O presente curso desmistifica o tema, apresentando os tópicos fundamentais da área de uma forma simples, e descrevendo cada uma das etapas do processo de descoberta de informação a partir de bases de dados. É dada particular importância às diferentes fases do processo, nomeadamente à análise exploratória (data profiling), à preparação dos dados, incluindo a reengenharia de variáveis (feature engineering) e à avaliação da informação descoberta. Por último, são ainda descritas as tarefas de modelação mais populares (mining tasks), como são a classificação, previsão, segmentação (clustering), descoberta de padrões e deteção de anomalias.

Público-alvo

O curso destina-se especialmente a licenciados e/ou profissionais em engenharia informática ou afim, com interesse pela aplicação de algoritmos de inteligência e aprendizagem aos sistemas de informação.

Objetivos gerais

No final do curso, espera-se que os participantes tenham uma perceção completa do processo de descoberta de informação em toda a sua extensão, e que sejam capazes de o executar sobre conjuntos de dados tabulares.
Em particular, os participantes deverão ter a capacidade de caracterizar os dados a explorar, analisando as suas fragilidades e oportunidades, mas também a prepará-los para aumentar as suas potencialidades. Não menos importante, é a capacidade de avaliar os modelos descobertos, tanto na sua simplicidade como qualidade.

Pré-requisitos

Conhecimentos básicos de álgebra linear (nomeadamente matrizes, valores e vetores próprios), probabilidades e estatística (estimadores básicos, funções de distribuição e de densidade de probabilidades). Fluência em programação permitirá aos participantes a aplicação das técnicas apresentadas a dados concretos, por exemplo seguindo tutoriais de Python ou R para os implementar.

Métodos de Avaliação

No final de cada módulo de conteúdo, encontra um conjunto de exercícios de seleção da afirmação verdadeira, que o ajudarão a auto-avaliar os seus conhecimentos. No final, é apresentado um exame, constituído por um conjunto de questões semelhantes às anteriores. Participantes que obtenham uma nota no exame igual ou superior a 60% receberão um certificado de conclusão (sem referência da nota final).

Tutores

Cláudia Antunes

Cláudia Antunes é Professora Associada no Instituto Superior Técnico – Universidade de Lisboa, onde leciona desde 1998. Concluiu o seu doutoramento na mesma escola em 2005, no domínio da ciência de dados, propondo novos métodos e metodologias para lidar com dados temporais, em particular para a descoberta de padrões sequenciais. Os seus principais interesses de investigação estão centrados na área da ciência de dados, com ênfase na incorporação de conhecimento de domínio e exploração da temporalidade, para enriquecer o processo de classificação. Já coordenou e participou em vários projetos de investigação científica, nacionais e europeus, e conta com mais de setenta publicações em conferências e revistas científicas internacionais. A par deste trabalho, orienta alunos de mestrado e doutoramento, contando cerca de quarenta os que concluíram os seus trabalhos sob sua orientação. A sua atividade letiva nos últimos vinte anos, tem sido dedicada ao de disciplinas de ciência de dados e programação, tanto em programas de graduação como de pós-graduação.

Bibliografia recomendada

Data Mining and Machine Learning: Fundamental Concepts and Algorithms (2nd edition): Mohammed J. Zaki and Wagner Meira, Jr 2020 ISBN: 978-1108473989

Este curso e os seus respetivos conteúdos estão licenciados através da licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Course Details

Enrollment Period: 08/09/2023 - 02/01/2024

Course Start Date: 08/09/2023

Course End Date: 02/03/2024

Effort Hours: 40 hours

About This Course

Data Science, along with Artificial Intelligence and Machine Learning, appear today as the holy grail of information society evolution, but if not reaching so far, they are certainly fundamental pieces in the 4th industrial revolution.

There are many opportunities for those who have the fundamental knowledge in this area, since the job offer in Data Science in recent years has skyrocketed, being considered by many as the sexiest job in the 21st century.

The present course demystifies the theme, presenting the fundamental topics of the area in a simple way, and describing each of the stages of the discovery information process. Particular importance is given to the different steps in the process, namely data profiling, data preparation, including feature engineering and the evaluation of the discovered information. Finally, the most popular mining tasks are described, such as classification, forecasting, clustering, pattern mining and anomaly detection.

Main goals

At the end of the course, participants are expected to have a complete understanding of the information discovery process to its full extent, and to be able to perform it over tabular data.
In particular, participants should be able to characterize the data to be explored, analyzing their weaknesses and opportunities, but also to prepare them to increase their potential. No less important, is the ability to evaluate the models discovered, both in their simplicity and quality.

Target

The course is targeted at graduates and / or professionals in computer science and engineering, with an interest in the application of artificial intelligence and machine learning algorithms, to information systems.

Requirements

Basic knowledge of linear algebra (namely matrices, eigenvalues and eigenvectors), probabilities and statistics (basic estimators, probability distribution/density functions). Programming fluency will allow participants to apply presented techniques to concrete data, for example following Python or R tutorials to implement them.

Evaluation methods

At the end of each content module, you will find a set of exercises on selecting the true statement, which will help you on self-assessing your level of knowledge. At the end, you will be faced with an exam, consisting of a set of questions similar to the previous ones. Participants who obtain an exam grade equal to or greater than 60% receive a completion certificate (without reference to the final grade).

Course Staff

Cláudia Antunes

Cláudia Antunes is an Associate Professor at Instituto Superior Técnico – Universidade de Lisboa. Concluded her PhD in Information Systems and Computer Engineering by the same university, on 2005, in the data science domain, proposing new methods and methodologies to deal with temporal data, in particular for mining sequential patterns. Her main research interests are in the area of Data Science, in particular to what concerns to the usage of knowledge domain and the exploration of the temporality to enrich the classification task. She has coordinated and participated on several national and European research projects, and has more than seventy papers published in journals and international conferences. Along with this work, she supervise Master and PhDs students, accounting for about forty students who concluded their work under her supervision. She has been lecturing data science courses for twenty years, both in graduation and post-graduation programs.

Bibliography

Data Mining and Machine Learning: Fundamental Concepts and Algorithms (2nd edition): Mohammed J. Zaki and Wagner Meira, Jr 2020 ISBN: 978-1108473989

The following course and its contents are licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.