ML: kategorie nominalne – Dummy Variable Trap

Tak jak obiecałem wcześniej w poście mówiącym o danych kategoryzujących, napiszę kilka słów o problemie związanym z przetwarzaniem danych nominalnych, zwanym Dummy Variable Trap. Dummy variable jest to kolumna przechowująca wartość binarną (oznaczającą przynależność próbki do danej kategorii), utworzona w procesie kodowania jeden do wielu, o którym pisałem we wspomnianym poście. Spójrzmy zresztą na poniższy […]

ML: Obróbka danych: Dane kategoryczne

W poprzednim wpisie była mowa o kwestii brakujących danych w zbiorach. Kolejnym problemem z jakim jesteśmy zmuszeni sobie radzić jest obróbka danych kategorycznych. Spójrzmy na poniższy wycinek, tym razem pochodzący ze zbioru BreastCancer – jeżeli chcecie go ściągnąć znajduje się tutaj Załadujmy wspomniany zbiór i zobaczmy co w nim siedzi (od razu zrobimy też coś z […]

Scikit-learn i podstawy korzystania z algorytmów uczących

Biblioteka scikit-learn zawiera implementację wszystkiego co potrzebne do pracy z uczeniem maszynowym w Pythonie. Dodatkowo jest dostępna całkowicie za darmo jako projekt open source. Dzięki temu, że twórcy ściśle podążają za ustalonymi konwencjami, korzystanie z niej i rozpoczęcie trenowania swojego modelu to kwestia kilku minut. Kluczowe są zawsze dwie metody, które opisuję poniżej. Na początek warto wiedzieć, […]