Machine Learning: Przegląd podstawowych kategorii uczenia maszynowego

Tytułem wstępu W kilku najbliższych wpisach chciałbym omówić poszczególne kategorie uczenia maszynowego, wraz z podstawowymi algorytmami i na przykładach. Wydaje mi się jednak, że dobrym pomysłem byłoby najpierw skrótowe opisanie owych kategorii oraz technik, tak by mogły służyć jako swoisty spis treści, ściągawka albo po prostu przedstawiać wyraźniej zarys zagadnienia. Zwłaszcza, że wiele osób które interesują […]

ML: kategorie nominalne – Dummy Variable Trap

Tak jak obiecałem wcześniej w poście mówiącym o danych kategoryzujących, napiszę kilka słów o problemie związanym z przetwarzaniem danych nominalnych, zwanym Dummy Variable Trap. Dummy variable jest to kolumna przechowująca wartość binarną (oznaczającą przynależność próbki do danej kategorii), utworzona w procesie kodowania jeden do wielu, o którym pisałem we wspomnianym poście. Spójrzmy zresztą na poniższy […]

ML: Obróbka danych: Dane kategoryczne

W poprzednim wpisie była mowa o kwestii brakujących danych w zbiorach. Kolejnym problemem z jakim jesteśmy zmuszeni sobie radzić jest obróbka danych kategorycznych. Spójrzmy na poniższy wycinek, tym razem pochodzący ze zbioru BreastCancer – jeżeli chcecie go ściągnąć znajduje się tutaj Załadujmy wspomniany zbiór i zobaczmy co w nim siedzi (od razu zrobimy też coś z […]

ML: Obróbka danych: Brakujące dane

Dawno dawno temu, w poście mówiącym o przygotowaniu modelu jako części workflow uczenia maszynowego, pisałem że aby nasz model był jak najbardziej skuteczny wymaga dostarczenia dobrej jakości danych. Dobrej jakości dane nie rosną same na drzewach czerwono czarnych. Trzeba niestety samemu o nie zadbać i poprawić trapiące je problemy. Jakie to mogą być problemy? Zastanówmy […]