Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Machine Learning 1: classification methods

Informacje ogólne

Kod przedmiotu: 2400-DS1ML1 Kod Erasmus / ISCED: 14.3 / (0311) Ekonomia
Nazwa przedmiotu: Machine Learning 1: classification methods
Jednostka: Wydział Nauk Ekonomicznych
Grupy: Anglojęzyczna oferta zajęć WNE UW
Przedmioty 4EU+ (z oferty jednostek dydaktycznych)
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h)
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h)
Przedmioty obowiązkowe dla I roku Data Science and Business Analytics
Punkty ECTS i inne: 4.00
zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

obowiązkowe

Skrócony opis:

Kurs oferuje szeroki przegląd zastosowań metod uczenia maszynowego w kontekście uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych. Obejmuje zarówno opis podstaw teoretycznych, jak i praktyczne przykłady i zastosowania poszczególnych metod. W ramach kursu omówione zostaną podstawy uczenia maszynowego, w tym mierzenie jakości predykcji, testowanie modelu, metody jego walidacji, dobór zmiennych, prostą regresję liniową i logistyczną, analizę dyskryminacyjną oraz metodę k-najbliższych sąsiadów, maszyny wektorów nośnych, regresję grzbietową (ridge) i metodę Lasso.

Pełny opis:

1. Wprowadzenie do uczenia maszynowego

a. Czym jest, a czym nie jest uczenie maszynowe

b. Różnice między klasyfikacją, regresją i grupowaniem

c. wprowadzenie funkcji kosztu

d. Przykładowe metody parametryczne - regresja liniowa i regresja logistyczna

2. Pomiar skuteczności modelu, diagnostyka uczenia maszynowego

3. Miary jakości algorytmów uczenia nadzorowanego

a. (skuteczność modelu, pomiar błędu, tabela klasyfikacji i miary na niej oparte, krzywa ROC, AUC, RMSE)

b. Krzywa uczenia

c. dane uczące i dane testowe

3. Testowanie modelu

a. zwiększenie złożoności modelu w celu poprawy dopasowania

b. kompromis między wariancją modelu i jego obciążeniem

c. walidacja krzyżowa, wybór liczby kroków

4. Zarządzanie zmiennymi

a. Transformacja zmiennych

b. Dyskretyzacja cech ciągłych

c. Standaryzacja / normalizacja

5. k-NN

a. Klasyfikacja za pomocą metody k-najbliższych sąsiadów

b. Regresja za pomocą metody k-najbliższych sąsiadów

6. Maszyna wektorów nośnych

a. Optymalizowana funkcja celu

b. Rozdzielanie danych za pomocą maksymalnego marginesu

c. Wybór funkcji jądra dla bardziej złożonych danych

d. Modyfikacja algorytmu SVM dla problemów regresyjnych

7. Metody wyboru zmiennych

a. Metody automatycznego wyboru podzbioru zmiennych (selekcja krokowa, eliminacja wsteczna, selekcja postępująca)

b. Metody filtrowania - określanie przydatności zmiennych (np. test Chi kwadrat, information gain, współczynniki korelacji)

8. Metody regularyzacji

a. wprowadzenie kary za złożoność

modelu

b. Regularyzacja L1 dla dodatkowej rzadkości współczynników

c. Regularyzacja L2 dla penalizacji dużych współczynników

d. regularyzowana regresja liniowa

e. regularyzowana regresja logistyczna

9. Regresja Lasso

10. Praktyczne warsztaty na rzeczywistych danych

11. Prezentacje projektów

Literatura:

Harrington, Peter. Machine learning in action. Vol. 5. Greenwich, CT: Manning, 2012.

Zumel, Nina, John Mount, and Jim Porzak. Practical data science with R. Manning, 2014.

Lantz, Brett. Machine learning with R. Packt Publishing Ltd, 2013.

Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "The Elements of Statistical Learning: Data Mining, Inference, and Prediction." Springer Series in Statistics ( (2009).

Efekty uczenia się:

Po ukończeniu przedmiotu przeciętny student będzie posiadał rzetelną, uporządkowaną wiedzę dotyczącą szerokiego zakresu narzędzi uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych, takich jak regresja liniowa i logistyczna, liniowa analiza dyskryminacyjna, kNN, regresja grzbietowa, LASSO, Support Vector Machine. Będzie znał podstawy teoretyczne wymienionych algorytmów, jak i umiejętności programistyczne pozwalające na ich zastosowanie w praktyce. Będzie potrafił dobrać algorytmy modelowania predykcyjnego najlepiej dopasowane do specyfiki badanego problemu, dokonać rzetelnej walidacji modeli, wyboru i transformacji zmiennych, a także wykonać samodzielny projekt badawczy z wykorzystaniem poznanych metod.

K_U02, K_U05

Metody i kryteria oceniania:

Dwa praktyczne projekty uczenia maszynowego przygotowane w grupach co najwyżej 2 studentów - jeden dla problemu regresji i jeden dla klasyfikacji. Każdy projekt powinien być przygotowany na innym zbiorze danych wybranym przez studentów - jeden rozsądnie mały zbiór danych i jeden duży zbiór danych - zaakceptowanym przez prowadzącego (na przykład z https://www.kaggle.com). Studenci mają przygotować prezentację i rozszerzony raport w RMarkdown lub Python notebook, zawierający bloki kodu, które pozwolą w pełni odtworzyć zastosowaną analizę.

Zajęcia w cyklu "Semestr letni 2021/22" (zakończony)

Okres: 2022-02-21 - 2022-06-15
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Piotr Wójcik
Prowadzący grup: Adam Nowicki, Piotr Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.