Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Unsupervised Learning

Informacje ogólne

Kod przedmiotu: 2400-DS1UL Kod Erasmus / ISCED: 14.3 / (0311) Ekonomia
Nazwa przedmiotu: Unsupervised Learning
Jednostka: Wydział Nauk Ekonomicznych
Grupy: Anglojęzyczna oferta zajęć WNE UW
Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 1 (6*30h)
Przedmioty obowiązkowe dla I roku Data Science
Punkty ECTS i inne: 3.00
Język prowadzenia: angielski
Rodzaj przedmiotu:

obowiązkowe

Skrócony opis:

Uczenie nienadzorowane (unsupervised learning) jest typem uczenia maszynowego (machine learning) i zakłada brak określonego wyjścia w danych uczących. Uczenie nienadzorowane jest skoncentrowane na eksploracji struktury danych, przy czym klasyfikacja lub kategoryzacja nie są zawarte w obserwacjach. Kurs jest oparty na trzech blokach tematycznych: klastrowania (clustering), redukcji wymiarów (dimension reduction) oraz reguł asocjacyjnych (association rule learning). W ramach zajęć omówione zostaną aspekty teoretyczne i praktyczne uczenia nienadzorowanego. Przedmiot jest realizowany w formie laboratorium. Forma zaliczenia: przygotowanie projektów. Przedmiot jest dedykowany studentom studiów II stopnia (Informatyka i Ekonometria, Data Science).

Pełny opis:

Celem przedmiotu jest zapoznanie słuchaczy z możliwościami algorytmów odkrywania wiedzy z danych (Knowledge Discovery in Databases, KDD) i możliwość ich wykorzystania w analityce biznesowej.

Realizowane będą trzy bloki tematyczne: 1) klastrowanie, 2) redukcja wymiarów, 3) reguły asocjacyjne.

W ramach każdego bloku tematycznego realizowane będą cztery etapy: a) wprowadzenie do tematu i „ręczna” konstrukcja podstawowego algorytmu, b) zapoznanie się z dostępnymi pakietami i komendami w R, ich porównanie i ocena, c) praca z najnowszą literaturą tematu, d) projekt grupowy.

BLOK 1: Klastrowanie (analiza skupień)

Przedstawione zostanie poszukiwanie grup danych przez klastrowanie. Zaprezentowane zostaną metody klastrowania w oparciu o odległość (distance-based), a także metody k-średnich (k-means), algorytmy PAM (Partitioning Around Medoids) i CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RANdomized Search) czy klastrowanie nieparametryczne lub metody hierarchiczne, uczenie słownikowe (dictionary learning), metody powiązań i metody probabilistyczne. Przedstawione zostaną metody wyznaczania optymalnej liczby klastrów (m.in. CH index, Silhouette index) wraz ich miarami zgodności (agreement indices).

BLOK 2: Redukcja wymiarów

Analiza głównych składowych przy wykorzystaniu metod principal component analysis (PCA), multidimensional scaling (w wersji metrycznej i klasycznej), jak i aktualnych metod nieliniowych stosowanych do redukcji wymiarów.

BLOK 3: Reguły asocjacyjne

Przedstawione zostaną główne algorytmy reguł asocjacyjnych (Apriori, Eclat, FP-growth, OPUS). Ich zastosowanie dotyczy przede wszystkim danych transakcyjnych (tzw. market basket analysis) i poszukiwania reguł najczęściej występujących wspólnie produktów w koszyku. Przedstawione zostaną główne miary dla transakcji i reguł (m.in. wsparcie /support/, pewność /confidence/, lift, różnica pewności /difference of condifence DOC/ etc.).

Realizowane będą modele dla danych rzeczywistych, wymagających przekształcenia i wyczyszczenia danych wejściowych. Przedstawione zostaną sposoby wizualizacji danych transakcyjnych dla transakcji, reguł i klastrów (w tym interaktywne), a także metody upraszczania obliczeń dla dużych zbiorów danych przez m.in. próbkowanie. Wykorzystane zostaną pakiety arules, arulesViz, stats, cluster, pdfCluster, clues i inne (zob. R TaskViews „Cluster” - Cluster Analysis & Finite Mixture Models).

Literatura:

Artykuły naukowe przedstawione przez prowadzących zajęcia (literatura tematu) oraz:

Bousquet, O.; von Luxburg, U.; Raetsch, G., eds. (2004). Advanced Lectures on Machine Learning. Springer-Verlag.

Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001). "Unsupervised Learning and Clustering". Pattern classification (2nd ed.). Wiley.

Hastie, Trevor; Tibshirani, Robert (2009). The Elements of Statistical Learning: Data mining,Inference,and Prediction. New York: Springer

Efekty uczenia się:

- Student posiada wiedzę za zakresu uczenia nienadzorowanego

- Student jest zaznajomiony z narzędziami badawczymi uczenia nienadzorowanego

- Student potrafi analizować dane stosując podejście uczenia nienadzorowanego

- Student potrafi wykorzystać wiedzę z zakresu uczenia nienadzorowanego do prowadzenia własnych badań

- Student samodzielnie gromadzi, przetwarza i analizuje dane

- Student potrafi pracować w grupach projektowych

- Student potrafi formułować i wyrażać swoje poglądy w dyskusji

- Student wyraża ciekawość badawczą i otwartość w stosunku do analizy zjawisk o charakterze ekonomicznym

K_W01, K_U01, K_U02, K_U03, K_U04, K_U05, KS_01,

Metody i kryteria oceniania:

Oceniane będzie przygotowanie prac projektowych.

Zajęcia w cyklu "Semestr zimowy 2019/20" (zakończony)

Okres: 2019-10-01 - 2020-01-27
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Koordynatorzy: Katarzyna Kopczewska, Jacek Lewkowicz
Prowadzący grup: Katarzyna Kopczewska, Jacek Lewkowicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.