Uniwersytet Warszawski, Wydział Nauk Ekonomicznych - Centralny System Uwierzytelniania
Strona główna

Machine Learning 1: classification methods

Informacje ogólne

Kod przedmiotu: 2400-DS1ML1
Kod Erasmus / ISCED: 14.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0311) Ekonomia Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Machine Learning 1: classification methods
Jednostka: Wydział Nauk Ekonomicznych
Grupy: Anglojęzyczna oferta zajęć WNE UW
Przedmioty 4EU+ (z oferty jednostek dydaktycznych)
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h)
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h)
Przedmioty obowiązkowe dla I roku Data Science and Business Analytics
Punkty ECTS i inne: 4.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

obowiązkowe

Skrócony opis:

Kurs oferuje szeroki przegląd zastosowań metod uczenia maszynowego w kontekście uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych. Obejmuje zarówno opis podstaw teoretycznych, jak i praktyczne przykłady i zastosowania poszczególnych metod. W ramach kursu omówione zostaną podstawy uczenia maszynowego, w tym mierzenie jakości predykcji, testowanie modelu, metody jego walidacji, dobór zmiennych, prostą regresję liniową i logistyczną, analizę dyskryminacyjną oraz metodę k-najbliższych sąsiadów, maszyny wektorów nośnych, regresję grzbietową (ridge) i metodę Lasso.

Pełny opis:

1. Wprowadzenie do uczenia maszynowego

a. Czym jest, a czym nie jest uczenie maszynowe

b. Różnice między klasyfikacją, regresją i grupowaniem

c. wprowadzenie funkcji kosztu

d. Przykładowe metody parametryczne - regresja liniowa i regresja logistyczna

2. Pomiar skuteczności modelu, diagnostyka uczenia maszynowego

3. Miary jakości algorytmów uczenia nadzorowanego

a. (skuteczność modelu, pomiar błędu, tabela klasyfikacji i miary na niej oparte, krzywa ROC, AUC, RMSE)

b. Krzywa uczenia

c. dane uczące i dane testowe

3. Testowanie modelu

a. zwiększenie złożoności modelu w celu poprawy dopasowania

b. kompromis między wariancją modelu i jego obciążeniem

c. walidacja krzyżowa, wybór liczby kroków

4. Zarządzanie zmiennymi

a. Transformacja zmiennych

b. Dyskretyzacja cech ciągłych

c. Standaryzacja / normalizacja

5. k-NN

a. Klasyfikacja za pomocą metody k-najbliższych sąsiadów

b. Regresja za pomocą metody k-najbliższych sąsiadów

6. Maszyna wektorów nośnych

a. Optymalizowana funkcja celu

b. Rozdzielanie danych za pomocą maksymalnego marginesu

c. Wybór funkcji jądra dla bardziej złożonych danych

d. Modyfikacja algorytmu SVM dla problemów regresyjnych

7. Metody wyboru zmiennych

a. Metody automatycznego wyboru podzbioru zmiennych (selekcja krokowa, eliminacja wsteczna, selekcja postępująca)

b. Metody filtrowania - określanie przydatności zmiennych (np. test Chi kwadrat, information gain, współczynniki korelacji)

8. Metody regularyzacji

a. wprowadzenie kary za złożoność

modelu

b. Regularyzacja L1 dla dodatkowej rzadkości współczynników

c. Regularyzacja L2 dla penalizacji dużych współczynników

d. regularyzowana regresja liniowa

e. regularyzowana regresja logistyczna

9. Regresja Lasso

10. Praktyczne warsztaty na rzeczywistych danych

11. Prezentacje projektów

Literatura:

Harrington, Peter. Machine learning in action. Vol. 5. Greenwich, CT: Manning, 2012.

Zumel, Nina, John Mount, and Jim Porzak. Practical data science with R. Manning, 2014.

Lantz, Brett. Machine learning with R. Packt Publishing Ltd, 2013.

Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "The Elements of Statistical Learning: Data Mining, Inference, and Prediction." Springer Series in Statistics ( (2009).

Efekty uczenia się:

Po ukończeniu przedmiotu przeciętny student będzie posiadał rzetelną, uporządkowaną wiedzę dotyczącą szerokiego zakresu narzędzi uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych, takich jak regresja liniowa i logistyczna, liniowa analiza dyskryminacyjna, kNN, regresja grzbietowa, LASSO, Support Vector Machine. Będzie znał podstawy teoretyczne wymienionych algorytmów, jak i umiejętności programistyczne pozwalające na ich zastosowanie w praktyce. Będzie potrafił dobrać algorytmy modelowania predykcyjnego najlepiej dopasowane do specyfiki badanego problemu, dokonać rzetelnej walidacji modeli, wyboru i transformacji zmiennych, a także wykonać samodzielny projekt badawczy z wykorzystaniem poznanych metod.

K_U02, K_U05

Metody i kryteria oceniania:

Dwa praktyczne projekty uczenia maszynowego przygotowane w grupach co najwyżej 2 studentów - jeden dla problemu regresji i jeden dla klasyfikacji. Każdy projekt powinien być przygotowany na innym zbiorze danych wybranym przez studentów - jeden rozsądnie mały zbiór danych i jeden duży zbiór danych - zaakceptowanym przez prowadzącego (na przykład z https://www.kaggle.com). Studenci mają przygotować prezentację i rozszerzony raport w RMarkdown lub Python notebook, zawierający bloki kodu, które pozwolą w pełni odtworzyć zastosowaną analizę.

Zajęcia w cyklu "Semestr letni 2021/22" (zakończony)

Okres: 2022-02-21 - 2022-06-15
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Piotr Wójcik
Prowadzący grup: Adam Nowicki, Piotr Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2022/23" (jeszcze nie rozpoczęty)

Okres: 2023-02-20 - 2023-06-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Konwersatorium, 30 godzin więcej informacji
Koordynatorzy: Piotr Wójcik
Prowadzący grup: Piotr Wójcik
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski, Wydział Nauk Ekonomicznych.
ul. Długa 44/50
00-241 Warszawa
tel: +48 22 55 49 126 https://www.wne.uw.edu.pl/
kontakt deklaracja dostępności USOSweb 6.8.0.0-1 (2022-08-01)