Unsupervised Learning
Informacje ogólne
Kod przedmiotu: | 2400-DS1UL |
Kod Erasmus / ISCED: |
14.3
|
Nazwa przedmiotu: | Unsupervised Learning |
Jednostka: | Wydział Nauk Ekonomicznych |
Grupy: |
Anglojęzyczna oferta zajęć WNE UW Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h) Przedmioty obowiązkowe dla I roku Data Science and Business Analytics |
Punkty ECTS i inne: |
3.00
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | obowiązkowe |
Skrócony opis: |
Uczenie nienadzorowane (unsupervised learning) jest typem uczenia maszynowego (machine learning) i zakłada brak określonego wyjścia w danych uczących. Uczenie nienadzorowane jest skoncentrowane na eksploracji struktury danych, przy czym klasyfikacja lub kategoryzacja nie są zawarte w obserwacjach. Kurs jest oparty na trzech blokach tematycznych: klastrowania (clustering), redukcji wymiarów (dimension reduction) oraz reguł asocjacyjnych (association rule learning). W ramach zajęć omówione zostaną aspekty teoretyczne i praktyczne uczenia nienadzorowanego. Przedmiot jest realizowany w formie laboratorium. Forma zaliczenia: przygotowanie projektów. Przedmiot jest dedykowany studentom studiów II stopnia (Informatyka i Ekonometria, Data Science). |
Pełny opis: |
Celem przedmiotu jest zapoznanie słuchaczy z możliwościami algorytmów odkrywania wiedzy z danych (Knowledge Discovery in Databases, KDD) i możliwość ich wykorzystania w analityce biznesowej. Realizowane będą trzy bloki tematyczne: 1) klastrowanie, 2) redukcja wymiarów, 3) reguły asocjacyjne. W ramach każdego bloku tematycznego realizowane będą cztery etapy: a) wprowadzenie do tematu i „ręczna” konstrukcja podstawowego algorytmu, b) zapoznanie się z dostępnymi pakietami i komendami w R, ich porównanie i ocena, c) praca z najnowszą literaturą tematu, d) projekt grupowy. BLOK 1: Klastrowanie (analiza skupień) Przedstawione zostanie poszukiwanie grup danych przez klastrowanie. Zaprezentowane zostaną metody klastrowania w oparciu o odległość (distance-based), a także metody k-średnich (k-means), algorytmy PAM (Partitioning Around Medoids) i CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RANdomized Search) czy klastrowanie nieparametryczne lub metody hierarchiczne, uczenie słownikowe (dictionary learning), metody powiązań i metody probabilistyczne. Przedstawione zostaną metody wyznaczania optymalnej liczby klastrów (m.in. CH index, Silhouette index) wraz ich miarami zgodności (agreement indices). BLOK 2: Redukcja wymiarów Analiza głównych składowych przy wykorzystaniu metod principal component analysis (PCA), multidimensional scaling (w wersji metrycznej i klasycznej), jak i aktualnych metod nieliniowych stosowanych do redukcji wymiarów. BLOK 3: Reguły asocjacyjne Przedstawione zostaną główne algorytmy reguł asocjacyjnych (Apriori, Eclat, FP-growth, OPUS). Ich zastosowanie dotyczy przede wszystkim danych transakcyjnych (tzw. market basket analysis) i poszukiwania reguł najczęściej występujących wspólnie produktów w koszyku. Przedstawione zostaną główne miary dla transakcji i reguł (m.in. wsparcie /support/, pewność /confidence/, lift, różnica pewności /difference of condifence DOC/ etc.). Realizowane będą modele dla danych rzeczywistych, wymagających przekształcenia i wyczyszczenia danych wejściowych. Przedstawione zostaną sposoby wizualizacji danych transakcyjnych dla transakcji, reguł i klastrów (w tym interaktywne), a także metody upraszczania obliczeń dla dużych zbiorów danych przez m.in. próbkowanie. Wykorzystane zostaną pakiety arules, arulesViz, stats, cluster, pdfCluster, clues i inne (zob. R TaskViews „Cluster” - Cluster Analysis & Finite Mixture Models). |
Literatura: |
Artykuły naukowe przedstawione przez prowadzących zajęcia (literatura tematu) oraz: Bousquet, O.; von Luxburg, U.; Raetsch, G., eds. (2004). Advanced Lectures on Machine Learning. Springer-Verlag. Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001). "Unsupervised Learning and Clustering". Pattern classification (2nd ed.). Wiley. Hastie, Trevor; Tibshirani, Robert (2009). The Elements of Statistical Learning: Data mining,Inference,and Prediction. New York: Springer |
Efekty uczenia się: |
- Student posiada wiedzę za zakresu uczenia nienadzorowanego - Student jest zaznajomiony z narzędziami badawczymi uczenia nienadzorowanego - Student potrafi analizować dane stosując podejście uczenia nienadzorowanego - Student potrafi wykorzystać wiedzę z zakresu uczenia nienadzorowanego do prowadzenia własnych badań - Student samodzielnie gromadzi, przetwarza i analizuje dane - Student potrafi pracować w grupach projektowych - Student potrafi formułować i wyrażać swoje poglądy w dyskusji - Student wyraża ciekawość badawczą i otwartość w stosunku do analizy zjawisk o charakterze ekonomicznym K_W01, K_U01, K_U02, K_U03, K_U04, K_U05, KS_01, |
Metody i kryteria oceniania: |
Oceniane będzie przygotowanie prac projektowych. |
Zajęcia w cyklu "Semestr zimowy 2023/24" (zakończony)
Okres: | 2023-10-01 - 2024-01-28 |
Przejdź do planu
PN WT LAB
LAB
LAB
LAB
ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin
|
|
Koordynatorzy: | Katarzyna Kopczewska, Jacek Lewkowicz | |
Prowadzący grup: | Katarzyna Kopczewska, Jacek Lewkowicz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę |
Zajęcia w cyklu "Semestr zimowy 2024/25" (w trakcie)
Okres: | 2024-10-01 - 2025-01-26 |
Przejdź do planu
PN WT KON
KON
KON
KON
ŚR CZ PT |
Typ zajęć: |
Konwersatorium, 30 godzin
|
|
Koordynatorzy: | Katarzyna Kopczewska, Jacek Lewkowicz | |
Prowadzący grup: | Katarzyna Kopczewska, Jacek Lewkowicz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie na ocenę
Konwersatorium - Zaliczenie na ocenę |
Właścicielem praw autorskich jest Uniwersytet Warszawski, Wydział Nauk Ekonomicznych.