Machine Learning 1: classification methods
Informacje ogólne
Kod przedmiotu: | 2400-DS1ML1 |
Kod Erasmus / ISCED: |
14.3
|
Nazwa przedmiotu: | Machine Learning 1: classification methods |
Jednostka: | Wydział Nauk Ekonomicznych |
Grupy: |
Anglojęzyczna oferta zajęć WNE UW Przedmioty 4EU+ (z oferty jednostek dydaktycznych) Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h) Przedmioty obowiązkowe dla I roku Data Science and Business Analytics |
Punkty ECTS i inne: |
4.00
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | obowiązkowe |
Skrócony opis: |
Kurs oferuje szeroki przegląd zastosowań metod uczenia maszynowego w kontekście uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych. Obejmuje zarówno opis podstaw teoretycznych, jak i praktyczne przykłady i zastosowania poszczególnych metod. W ramach kursu omówione zostaną podstawy uczenia maszynowego, w tym mierzenie jakości predykcji, testowanie modelu, metody jego walidacji, dobór zmiennych, prostą regresję liniową i logistyczną, analizę dyskryminacyjną oraz metodę k-najbliższych sąsiadów, maszyny wektorów nośnych, regresję grzbietową (ridge) i metodę Lasso. |
Pełny opis: |
1. Wprowadzenie do uczenia maszynowego a. Czym jest, a czym nie jest uczenie maszynowe b. Różnice między klasyfikacją, regresją i grupowaniem c. wprowadzenie funkcji kosztu d. Przykładowe metody parametryczne - regresja liniowa i regresja logistyczna 2. Pomiar skuteczności modelu, diagnostyka uczenia maszynowego 3. Miary jakości algorytmów uczenia nadzorowanego a. (skuteczność modelu, pomiar błędu, tabela klasyfikacji i miary na niej oparte, krzywa ROC, AUC, RMSE) b. Krzywa uczenia c. dane uczące i dane testowe 3. Testowanie modelu a. zwiększenie złożoności modelu w celu poprawy dopasowania b. kompromis między wariancją modelu i jego obciążeniem c. walidacja krzyżowa, wybór liczby kroków 4. Zarządzanie zmiennymi a. Transformacja zmiennych b. Dyskretyzacja cech ciągłych c. Standaryzacja / normalizacja 5. k-NN a. Klasyfikacja za pomocą metody k-najbliższych sąsiadów b. Regresja za pomocą metody k-najbliższych sąsiadów 6. Maszyna wektorów nośnych a. Optymalizowana funkcja celu b. Rozdzielanie danych za pomocą maksymalnego marginesu c. Wybór funkcji jądra dla bardziej złożonych danych d. Modyfikacja algorytmu SVM dla problemów regresyjnych 7. Metody wyboru zmiennych a. Metody automatycznego wyboru podzbioru zmiennych (selekcja krokowa, eliminacja wsteczna, selekcja postępująca) b. Metody filtrowania - określanie przydatności zmiennych (np. test Chi kwadrat, information gain, współczynniki korelacji) 8. Metody regularyzacji a. wprowadzenie kary za złożoność modelu b. Regularyzacja L1 dla dodatkowej rzadkości współczynników c. Regularyzacja L2 dla penalizacji dużych współczynników d. regularyzowana regresja liniowa e. regularyzowana regresja logistyczna 9. Regresja Lasso 10. Praktyczne warsztaty na rzeczywistych danych 11. Prezentacje projektów |
Literatura: |
Harrington, Peter. Machine learning in action. Vol. 5. Greenwich, CT: Manning, 2012. Zumel, Nina, John Mount, and Jim Porzak. Practical data science with R. Manning, 2014. Lantz, Brett. Machine learning with R. Packt Publishing Ltd, 2013. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "The Elements of Statistical Learning: Data Mining, Inference, and Prediction." Springer Series in Statistics ( (2009). |
Efekty uczenia się: |
Po ukończeniu przedmiotu przeciętny student będzie posiadał rzetelną, uporządkowaną wiedzę dotyczącą szerokiego zakresu narzędzi uczenia nienadzorowanego dla problemów regresyjnych i klasyfikacyjnych, takich jak regresja liniowa i logistyczna, liniowa analiza dyskryminacyjna, kNN, regresja grzbietowa, LASSO, Support Vector Machine. Będzie znał podstawy teoretyczne wymienionych algorytmów, jak i umiejętności programistyczne pozwalające na ich zastosowanie w praktyce. Będzie potrafił dobrać algorytmy modelowania predykcyjnego najlepiej dopasowane do specyfiki badanego problemu, dokonać rzetelnej walidacji modeli, wyboru i transformacji zmiennych, a także wykonać samodzielny projekt badawczy z wykorzystaniem poznanych metod. K_U02, K_U05 |
Metody i kryteria oceniania: |
Dwa praktyczne projekty uczenia maszynowego przygotowane w grupach co najwyżej 2 studentów - jeden dla problemu regresji i jeden dla klasyfikacji. Każdy projekt powinien być przygotowany na innym zbiorze danych wybranym przez studentów - jeden rozsądnie mały zbiór danych i jeden duży zbiór danych - zaakceptowanym przez prowadzącego (na przykład z https://www.kaggle.com). Studenci mają przygotować prezentację i rozszerzony raport w RMarkdown lub Python notebook, zawierający bloki kodu, które pozwolą w pełni odtworzyć zastosowaną analizę. |
Zajęcia w cyklu "Semestr letni 2022/23" (w trakcie)
Okres: | 2023-02-20 - 2023-06-18 |
![]() |
Typ zajęć: |
Konwersatorium, 30 godzin
|
|
Koordynatorzy: | Piotr Wójcik | |
Prowadzący grup: | Szymon Lis, Michał Woźniak, Piotr Wójcik | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Warszawski, Wydział Nauk Ekonomicznych.