Expert na strojové učení, data mining a NLP

Úvod do strojového učení

Obsah kurzu

V rámci workshopu teoreticky vysvětlím a prakticky implementujeme tato témata z oblasti strojového učení:

  • Stručný teoretický úvod do strojového učení
    • kdy je vhodné použít strojové učení?
    • definování základních konceptů
  • Úvod do programovacího jazyka Python a seznámení s workspace
  • Úvod do frameworku scikit-learn – frameworku pro strojové učení v Pythonu
  • Evaluační míry a strategie
    • matice konfuze, accuracy, precision, recall, f-measure
    • ROC křivka
    • rozdělení dat, grid-search
  • Tvorba features
    • one-hot encoding pro kategoriální data
    • TF-IDF pro textová data
  • Základní algoritmy
    • rozhodovací stromy
    • geometrické klasifikátory
  • Výběr nejlepších features
    • prokletí dimenzionality
    • rozptylový threshold, informační zisk
  • Statistická signifikance
    • konfidenční intervaly, t-test, křížová validace

Časový rozsah

Workshop je možné realizovat ve dvou variantách:

  1. Jednodenní workshop Vám umožní získat základní přehled ve strojovém učení, je vhodný pro účastníky, kteří už umí základy Pythonu, případně si je nastudují před začátkem kurzu.
  2. Dvoudenní workshop umožňuje hlubší probrání metod strojového učení. V rámci něho je taky možné více se věnovat úvodu do programování v Pythonu nebo otázce deploymentu modelů strojového učení do produkce. Mezi dvěma dny kurzu je možné účastníkům zadat domácí úkol, na kterém si budou moci nové znalosti víc zažít.

Předpoklady pro realizaci

  • Pro účastníky kurzu bude připraven on-line workspace v podobě Jupyter Notebooků, ve kterých budou programovat úkoly pro procvičení všech probíraných metod.
  • Účastníci workshopu se zájmem o teoretickou rovinu nejsou vázaní žádnými předpoklady pro účast. Pro účastníky se zájmem o praktické implementace metod v Pythonu doporučuju přinést si vlastní notebook s připojením k Internetu.
  • Praktické úkoly mohou být realizovány na konkrétních příkladech, datech a use cases z Vaší společnosti. Výsledky pak můžete přímo použít v praxi. Pokud taková data, případně use cases neidentifikujete, praktické úkoly můžeme řešit na obecných úkolech a datech.
  • Po skončení workshopu budou všechny implementované algoritmy, vzorová data a materiály i nadále dostupné účastníkům workshopu.
  • Workshop proběhne ve Vašich prostorách vybavených projektorem, případně televizí pro promítaní.
#

Lektor

#

RNDr. Vincent Čeněk Kríž, Ph.D.

Vystudoval jsem počítačovou lingvistiku na MFF UK. Strojovým učením se profesionálně zabývám od roku 2011, vyvíjel jsem ML systémy pro společnosti Textkernel, ČSOB a RARE Technologies. Aktuálně pracuji jako Lead Data Scientist ve společnosti LMC.

Kontakt

776 731 243

vincent.kriz@seznam.cz