V dnešnom dynamickom svete podnikania, kde dáta predstavujú novodobé zlato, je pochopenie ich skrytých hodnôt kľúčom k úspechu. Často sa stretávame s komplexnými súbormi informácií, ktoré sa na prvý pohľad zdajú byť chaotické a neprehľadné. Pritom práve v nich sa skrývajú odpovede na zásadné otázky, ktoré formujú budúcnosť našich organizácií. Ako sa teda môžeme orientovať v tomto informačnom mori a extrahovať z neho cenné poznatky, ktoré nám pomôžu robiť lepšie rozhodnutia?
Jedným z najmocnejších nástrojov, ktorý nám v tomto procese môže pomôcť, je regresná analýza, a konkrétne jej špecifická forma – logistická regresia. Možno ste už o nej počuli v kontexte štatistiky alebo dátovej vedy, ale jej aplikácie v biznis analytike sú oveľa širšie a praktickejšie, než sa na prvý pohľad zdá. Logistická regresia nám umožňuje modelovať a predvídať pravdepodobnosť výskytu určitej udalosti, čo je neoceniteľné pre široké spektrum obchodných problémov.
V tomto článku sa ponoríme hlbšie do sveta logistickej regresie. Vysvetlíme si, čo presne znamená, prečo je taká užitočná v oblasti biznis analytiky, a ako ju môžeme efektívne využiť na riešenie reálnych obchodných výziev. Odhalíme jej základné princípy, ukážeme si praktické príklady jej využitia a poskytneme vám návod, ako ju pochopiť a aplikovať vo vašej vlastnej práci. Pripravte sa na cestu objavovania, ktorá vám otvorí nové perspektívy v práci s dátami.
Pochopenie Základov: Čo je Logistická Regresia?
Logistická regresia je štatistická metóda, ktorá sa používa na modelovanie vzťahu medzi nezávislými premennými a závislou premennou, ktorá je kategorická. Na rozdiel od lineárnej regresie, ktorá predpovedá spojité hodnoty, logistická regresia predpovedá pravdepodobnosť, s akou daný výsledok nastane. Táto pravdepodobnosť sa potom transformuje pomocou logistickej funkcie (sigmoidu) do hodnoty medzi 0 a 1, ktorá reprezentuje pravdepodobnosť príslušnosti k určitej triede.
Predstavte si situáciu, kedy chcete predpovedať, či zákazník uskutoční nákup alebo nie. Máte k dispozícii rôzne informácie o zákazníkovi, ako je jeho vek, príjem, predchádzajúce nákupné správanie a podobne. Logistická regresia vám umožní na základe týchto informácií odhadnúť pravdepodobnosť, že daný zákazník nakúpi. Táto pravdepodobnosť môže byť napríklad 0.85, čo znamená 85% šancu na nákup.
Kľúčovým prvkom logistickej regresie je práve táto schopnosť pracovať s binárnymi (alebo multinomickými) výsledkami. Je mimoriadne užitočná v situáciách, kde sa rozhodujeme medzi dvoma alebo viacerými alternatívami, ako napríklad:
- Áno/Nie: Zákazník klikne na reklamu alebo nie? Klient splatí pôžičku alebo nie? Produkt bude úspešný na trhu alebo nie?
- Nákup/Neuskutočnenie nákupu: Zákazník nakúpi v e-shope alebo nie?
- Odchod/Zotrvanie: Klient odíde od poskytovateľa služieb alebo nie?
- Chyba/Bezchybnosť: Výrobok bude bezchybný alebo chybný?
Logistická regresia poskytuje robustný matematický rámec na modelovanie týchto typov problémov, čo ju robí nepostrádateľným nástrojom v arzenáli každého biznis analytika.
Prečo je Logistická Regresia Kľúčová v Biznis Analytike?
V biznis analytike čelíme neustále potrebám predvídať budúce správanie a robiť informované rozhodnutia na základe dostupných dát. Logistická regresia poskytuje elegantné riešenie pre mnoho z týchto výziev tým, že umožňuje kvantifikovať riziko a pravdepodobnosť rôznych výsledkov. Jej flexibilita a interpretovateľnosť ju robia obzvlášť cennou.
Jednou z hlavných výhod je jej schopnosť identifikovať kľúčové faktory, ktoré ovplyvňujú pravdepodobnosť určitého výsledku. Analýzou regresných koeficientov môžeme pochopiť, ktoré premenné majú najväčší vplyv na predpoveď. Napríklad, ak zistíme, že vek zákazníka má silný pozitívny vplyv na pravdepodobnosť nákupu, môžeme túto informáciu využiť pri cielení marketingových kampaní.
Okrem toho, logistická regresia je pomerne jednoduchá na pochopenie a implementáciu, čo ju robí prístupnou aj pre tých, ktorí nie sú hlboko ponorení do pokročilých štatistických metód. Jej výsledky sú ľahko interpretovateľné a môžu byť priamo preložené do obchodných odporúčaní.
„Schopnosť predvídať správanie zákazníkov je pre moderné podnikanie nevyhnutná. Logistická regresia nám dáva nástroje na to, aby sme túto predikciu realizovali s vysokou mierou presnosti a porozumenia.“
Ako Logistická Regresia Funguje: Princípy a Koncepty
Základným princípom logistickej regresie je modelovanie pravdepodobnosti pomocou logistickej funkcie, známej aj ako sigmoidná funkcia. Táto funkcia má tvar písmena "S" a transformuje akúkoľvek vstupnú hodnotu do výstupu v rozsahu od 0 do 1. V kontexte logistickej regresie, vstupnou hodnotou je lineárna kombinácia nezávislých premenných, zatiaľ čo výstupom je pravdepodobnosť.
Matematicky to môžeme vyjadriť nasledovne:
P(Y=1 | X) = 1 / (1 + e^-(β₀ + β₁X₁ + β₂X₂ + … + βnXn))
Kde:
- P(Y=1 | X) je pravdepodobnosť, že závislá premenná Y nadobudne hodnotu 1 (napr. zákazník nakúpi), pod podmienkou daných nezávislých premenných X.
- e je Eulerovo číslo (približne 2.71828).
- β₀ je intercept (konštanta).
- β₁, β₂, …, βn sú regresné koeficienty pre jednotlivé nezávislé premenné X₁, X₂, …, Xn.
Regresné koeficienty (β) sú odhadnuté tak, aby maximalizovali pravdepodobnosť pozorovaných dát. Tento proces sa zvyčajne vykonáva pomocou metódy maximálnej vierohodnosti (Maximum Likelihood Estimation).
Kľúčové pojmy, s ktorými sa stretnete:
- Logit: Logaritmus pomeru šancí (odds). Pomer šancí je definovaný ako pravdepodobnosť úspechu delená pravdepodobnosťou neúspechu (P(Y=1) / P(Y=0)). Logit transformácia premieňa pravdepodobnosť na lineárnu škálu.
- Odds Ratio (OR): Vyjadruje, o koľko sa zmenia šance (odds) pre zmenu nezávislej premennej o jednu jednotku, pri zachovaní ostatných premenných konštantných. OR > 1 znamená zvýšenie šancí, OR < 1 znamená zníženie šancí.
- P-hodnota: Používa sa na testovanie štatistickej významnosti jednotlivých premenných. Nízka p-hodnota (typicky < 0.05) naznačuje, že premenná je štatisticky významná.
- Konfidenčný interval: Rozsah hodnôt, v ktorom sa s určitou pravdepodobnosťou (napr. 95%) nachádza skutočná hodnota parametra (napr. regresného koeficientu alebo odds ratio).
Príklady Aplikácie Logistickej Regresie v Biznise
Logistická regresia má široké spektrum uplatnenia v rôznych oblastiach biznisu. Tu sú niektoré z najbežnejších príkladov:
-
Predikcia odchodu zákazníkov (Churn Prediction): Firmy používajú logistickú regresiu na predpovedanie, ktorí zákazníci s najväčšou pravdepodobnosťou ukončia svoje odbery služieb alebo zrušia svoje účty. Analýzou dát o zákazníkoch (demografia, história používania, interakcie so zákazníckou podporou) môžu identifikovať rizikových zákazníkov a prijať proaktívne opatrenia na ich udržanie.
Príklad: Telekomunikačná spoločnosť analyzuje dáta svojich klientov. Model logistickej regresie identifikuje, že zákazníci s nízkym využitím dátových služieb a viacerými sťažnosťami na podporu majú vyššiu pravdepodobnosť odchodu. Spoločnosť môže týmto zákazníkom ponúknuť špeciálne balíčky alebo lepšiu podporu, aby zabránila ich odchodu.
-
Hodnotenie kreditného rizika: Banky a finančné inštitúcie používajú logistickú regresiu na posúdenie pravdepodobnosti, že žiadateľ o úver splatí svoj dlh. Na základe informácií o príjme, zamestnaní, histórii úverov a iných faktorov sa vypočíta pravdepodobnosť defaultu.
Príklad: Banka vyvíja model na schvaľovanie hypoték. Logistická regresia analyzuje faktory ako príjem, výška dlhu, dĺžka zamestnania a história splácania úverov. Model potom predpovedá pravdepodobnosť, že žiadateľ nesplatí hypotéku. Na základe tejto pravdepodobnosti banka rozhodne o schválení alebo zamietnutí žiadosti.
-
Cielený marketing a personalizácia: E-shopy a marketingové agentúry používajú logistickú regresiu na predpovedanie, ktorí zákazníci pravdepodobne zareagujú na konkrétnu marketingovú kampaň alebo ponuku. To umožňuje efektívnejšie alokovať marketingové rozpočty a zvyšovať návratnosť investícií.
Príklad: Online predajca oblečenia chce zaslať cielený e-mail s ponukou zľavy na zimné bundy. Pomocou logistickej regresie analyzuje predchádzajúce nákupné správanie zákazníkov, ich demografické údaje a interakcie s webovou stránkou. Model predpovedá pravdepodobnosť, že zákazník si kúpi zimnú bundu. E-mail je potom zaslaný len tým zákazníkom, u ktorých je táto pravdepodobnosť vysoká.
-
Predikcia úspešnosti predaja: Obchodné tímy môžu použiť logistickú regresiu na odhad, či sa konkrétna obchodná príležitosť (lead) premení na úspešný predaj. Analýzou vlastností leadu a jeho interakcií s obchodným tímom sa dá predpovedať pravdepodobnosť uzatvorenia obchodu.
Príklad: Softvérová spoločnosť sleduje svoje obchodné príležitosti. Logistická regresia analyzuje faktory ako veľkosť firmy, odvetvie, počet stretnutí s potenciálnym klientom a jeho reakcie na demo prezentácie. Model predpovedá pravdepodobnosť, že sa obchodná príležitosť úspešne uzavrie. Obchodný tím sa potom môže sústrediť na tie príležitosti s najvyššou pravdepodobnosťou úspechu.
-
Detekcia podvodov: Finančné inštitúcie a poisťovne používajú logistickú regresiu na identifikáciu potenciálne podvodných transakcií alebo nárokov. Model sa učí rozlišovať medzi legitímnymi a podvodnými vzorcami správania.
Príklad: Poisťovňa chce identifikovať falošné poistné udalosti. Logistická regresia analyzuje dáta o poistných udalostiach, ako sú neobvyklé okolnosti, opakované nároky alebo nekonzistentné informácie. Model predpovedá pravdepodobnosť, že daný nárok je podvodný.
Logistická regresia je teda univerzálny nástroj, ktorý môže pomôcť firmám lepšie porozumieť svojim zákazníkom, riadiť riziká a optimalizovať svoje obchodné procesy.
| Oblasť Biznisu | Príklad Aplikácie | Cieľ Predikcie | Kľúčové Vstupujúce Premenné (Príklady) |
|---|---|---|---|
| Zákaznícky Manažment | Predikcia odchodu zákazníkov (Churn Prediction) | Pravdepodobnosť odchodu zákazníka | Dĺžka členstva, história interakcií, využívanie služieb, sťažnosti |
| Finančné Služby | Hodnotenie kreditného rizika | Pravdepodobnosť nesplatenia úveru | Príjem, zamestnanie, história úverov, výška dlhu, vek |
| Marketing | Cielené kampane a personalizácia | Pravdepodobnosť reakcie na kampaň/ponuku | Demografia, história nákupov, návštevy webu, demografické údaje |
| Predaj | Predikcia úspešnosti obchodných príležitostí (Leads) | Pravdepodobnosť uzatvorenia obchodu | Veľkosť firmy, odvetvie, počet stretnutí, reakcia na demo, typ produktu |
| Poisťovníctvo | Detekcia podvodov | Pravdepodobnosť podvodného nároku/transakcie | Detaily nároku, história poistenca, neobvyklé okolnosti, štatistické anomálie |
Výhody a Nevýhody Logistickej Regresie
Ako každá štatistická metóda, aj logistická regresia má svoje silné a slabé stránky. Pochopenie týchto aspektov nám pomôže lepšie ju aplikovať a interpretovať jej výsledky.
Výhody Logistickej Regresie
- Interpretovateľnosť: Jednou z najväčších výhod logistickej regresie je jej vysoká interpretovateľnosť. Regresné koeficienty a odds ratios nám umožňujú pochopiť, ako jednotlivé nezávislé premenné ovplyvňujú pravdepodobnosť výsledku. To je kľúčové pre biznis analytikov, ktorí potrebujú vysvetliť svoje zistenia manažmentu.
- Efektivita pre binárne výsledky: Je špeciálne navrhnutá pre problémy, kde je závislá premenná kategorická, najčastejšie binárna (áno/nie, 0/1). V týchto prípadoch poskytuje spoľahlivé a presné výsledky.
- Nenáročnosť na výpočtový výkon: V porovnaní s komplexnejšími modelmi strojového učenia, ako sú neurónové siete, je logistická regresia výpočtovo menej náročná. To znamená, že ju možno efektívne použiť aj na veľké súbory dát s obmedzenými výpočtovými zdrojmi.
- Dobrá predikčná sila: Ak sú predpoklady modelu splnené, logistická regresia môže poskytnúť veľmi dobrú predikčnú silu, najmä v oblastiach, kde sú vzťahy medzi premennými relatívne lineárne na logitovej škále.
- Základ pre pokročilejšie techniky: Je často základným stavebným kameňom pre pochopenie zložitejších modelov. Znalosť logistickej regresie uľahčuje prechod k pokročilejším klasifikačným algoritmom.
„Logistická regresia nie je len o predikcii, ale predovšetkým o porozumení. Poskytuje nám jasný pohľad na to, ktoré faktory skutočne ovplyvňujú naše obchodné výsledky.“
Nevýhody a Obmedzenia Logistickej Regresie
- Predpoklady o lineárnosti: Logistická regresia predpokladá lineárny vzťah medzi nezávislými premennými a logitom závislej premennej. Ak je skutočný vzťah nelineárny, výkon modelu môže byť obmedzený.
- Citlivosť na odľahlé hodnoty: Podobne ako lineárna regresia, aj logistická regresia môže byť citlivá na odľahlé hodnoty (outliers) v dátach, ktoré môžu skresliť výsledné koeficienty.
- Nekvalitné dáta: Výkon modelu závisí od kvality vstupných dát. Ak sú dáta neúplné, nepresné alebo obsahujú veľa šumu, výsledky logistickej regresie nebudú spoľahlivé.
- Multikolinearita: Ak sú nezávislé premenné vysoko korelované (multikolinearita), môže to sťažiť interpretáciu koeficientov a viesť k nestabilným odhadom.
- Nepredvída komplexné interakcie: Logistická regresia nemusí byť schopná efektívne zachytiť veľmi komplexné interakcie medzi premennými bez toho, aby sme ich explicitne nepridali do modelu.
Kroky na Implementáciu Logistickej Regresie v Biznis Analytike
Úspešná implementácia logistickej regresie v biznis analytike si vyžaduje systematický prístup. Tu je zhrnutie kľúčových krokov, ktoré by ste mali dodržať:
- Definícia Problému a Cieľa: Jasne si stanovte, aký obchodný problém chcete riešiť a aký výsledok chcete predpovedať. Napríklad, chceme predpovedať pravdepodobnosť, že zákazník zareaguje na marketingovú kampaň.
- Zber a Predspracovanie Dát: Zbierajte relevantné dáta z rôznych zdrojov. Tento krok zahŕňa čistenie dát (odstránenie duplikátov, spracovanie chýbajúcich hodnôt), transformáciu dát (napr. kategorické premenné na numerické) a výber relevantných premenných.
- Výber Premenných: Na základe obchodných znalostí a predbežnej analýzy vyberte nezávislé premenné, ktoré pravdepodobne ovplyvnia závislú premennú. Techniky ako výberová analýza alebo štatistické testy môžu pomôcť.
- Rozdelenie Dát: Rozdeľte súbor dát na tréningovú a testovaciu sadu. Tréningová sada sa používa na "učenie" modelu, zatiaľ čo testovacia sada na overenie jeho výkonu na nových, nevidených dátach.
- Modelovanie: Aplikujte algoritmus logistickej regresie na tréningové dáta. V tomto kroku sa odhadnú regresné koeficienty.
- Vyhodnotenie Modelu: Vyhodnoťte výkon modelu pomocou vhodných metrík, ako je presnosť (accuracy), precíznosť (precision), návratnosť (recall), F1-skóre alebo AUC (Area Under the ROC Curve). Porovnajte výkon na tréningovej a testovacej sade, aby ste odhalili overfitting.
- Interpretácia Výsledkov: Analyzujte regresné koeficienty a odds ratios, aby ste pochopili, ktoré premenné sú najdôležitejšie a ako ovplyvňujú predikciu.
- Nasadenie a Monitorovanie: Ak je model dostatočne presný a spoľahlivý, nasadíte ho do produkčného prostredia. Je dôležité výsledky modelu priebežne monitorovať a v prípade potreby ho pretrénovať s novými dátami.
„Dobrý model logistickej regresie nie je len o matematike, ale aj o pochopení kontextu. Výsledky musia byť pre biznis zrozumiteľné a akčné.“
Metriky na Vyhodnotenie Modelu Logistickej Regresie
Presnosť modelu je kľúčová pre jeho praktické využitie. V prípade logistickej regresie, ktorá predpovedá pravdepodobnosť a klasifikuje do kategórií, existuje niekoľko dôležitých metrík:
-
Confusion Matrix (Matica zámeny): Základný nástroj na vyhodnotenie klasifikačných modelov. Obsahuje štyri hodnoty:
- True Positives (TP): Správne predpovedané pozitívne prípady.
- True Negatives (TN): Správne predpovedané negatívne prípady.
- False Positives (FP): Nesprávne predpovedané pozitívne prípady (chyba typu I).
- False Negatives (FN): Nesprávne predpovedané negatívne prípady (chyba typu II).
-
Presnosť (Accuracy): Celkový podiel správne klasifikovaných prípadov.
Accuracy = (TP + TN) / (TP + TN + FP + FN)
Je užitočná, keď sú triedy v dátach približne rovnomerne rozdelené.
-
Precíznosť (Precision): Podiel skutočne pozitívnych prípadov spomedzi všetkých, ktoré model predpovedal ako pozitívne.
Precision = TP / (TP + FP)
Je dôležitá, keď chceme minimalizovať počet falošne pozitívnych výsledkov (napr. pri detekcii podvodov, kde falošne obviniť niekoho je nákladné).
-
Návratnosť (Recall / Sensitivity): Podiel skutočne pozitívnych prípadov, ktoré model správne identifikoval.
Recall = TP / (TP + FN)
Je dôležitá, keď chceme minimalizovať počet falošne negatívnych výsledkov (napr. pri diagnostike chorôb, kde nechceme prehliadnuť chorého pacienta).
-
F1-skóre: Harmonický priemer precíznosti a návratnosti. Poskytuje vyvážené meradlo výkonu, najmä keď sú triedy nevyvážené.
F1-Score = 2 * (Precision * Recall) / (Precision + Recall)
-
AUC (Area Under the ROC Curve): Hodnota AUC meria celkovú schopnosť modelu rozlišovať medzi pozitívnymi a negatívnymi triedami. Hodnota 1.0 znamená perfektný klasifikátor, zatiaľ čo 0.5 znamená náhodný odhad. ROC krivka zobrazuje vzťah medzi True Positive Rate (Recall) a False Positive Rate (FP / (FP + TN)) pri rôznych prahových hodnotách klasifikácie.
Výber vhodnej metriky závisí od špecifického obchodného problému a od toho, aké typy chýb sú pre firmu najnákladnejšie.
Budúcnosť Logistickej Regresie v Biznis Analytike
Hoci sa objavujú čoraz komplexnejšie modely strojového učenia, logistická regresia si stále drží svoje pevné miesto v biznis analytike. Jej jednoduchosť, interpretovateľnosť a efektivita ju robia neoceniteľným nástrojom, najmä v situáciách, kde je potrebné jasne pochopiť príčiny a dôsledky.
V budúcnosti môžeme očakávať, že logistická regresia bude naďalej slúžiť ako základ pre mnohé analytické úlohy. Bude sa tiež čoraz častejšie kombinovať s inými technikami, aby sa využili jej silné stránky a zároveň sa prekonali jej obmedzenia. Napríklad, môže byť použitá ako jedna z vrstiev v hlbokých neurónových sieťach alebo ako prvotný model na získanie základného porozumenia pred prechodom k zložitejším prístupom.
„Schopnosť interpretovať prediktívne modely je v podnikaní rovnako dôležitá ako samotná predikcia. Logistická regresia v tomto ohľade exceluje a preto zostáva relevantná.“
Je dôležité, aby si biznis analytici aj naďalej osvojovali a rozvíjali svoje znalosti v oblasti logistickej regresie. Je to fundamentálna technika, ktorá poskytuje pevný základ pre prácu s dátami a umožňuje robiť lepšie, dátami podložené rozhodnutia.
Často Kladené Otázky (FAQ)
Je logistická regresia vhodná pre predikciu, keď mám viac ako dve možné výsledky?
Áno, logistická regresia môže byť rozšírená aj na prípady s viacerými kategorickými výsledkami. V takom prípade hovoríme o multinomickej logistickej regresii alebo o ordinálnej logistickej regresii, v závislosti od povahy kategórií. Multinomická regresia sa používa, keď kategórie nemajú žiadne prirodzené usporiadanie, zatiaľ čo ordinálna regresia sa používa, keď kategórie majú definované poradie (napr. nespokojný, neutrálny, spokojný).
Ako si môžem vybrať správny prah pre klasifikáciu v logistickej regresii?
Voľba prahu (threshold) pre klasifikáciu (napr. aká pravdepodobnosť znamená "áno" a aká "nie") závisí od konkrétneho obchodného problému. Zvyčajne sa prah 0.5 používa ako východiskový bod. Avšak, ak je napríklad cena za falošne pozitívny výsledok (FP) oveľa vyššia ako cena za falošne negatívny výsledok (FN), môže byť vhodné znížiť prah, aby sa minimalizovali FP. Naopak, ak je dôležitejšie zachytiť čo najviac pozitívnych prípadov (minimalizovať FN), prah sa môže zvýšiť. ROC krivka a AUC metrika pomáhajú pri vizualizácii a výbere optimálneho prahu na základe kompromisu medzi precíznosťou a návratnosťou.
Čo sú to "odds" a "odds ratio" v kontexte logistickej regresie?
"Odds" (pomer šancí) sú definované ako pomer pravdepodobnosti, že udalosť nastane, k pravdepodobnosti, že nenastane. Matematicky: Odds = P(Y=1) / P(Y=0). "Odds Ratio" (OR) potom udáva, o koľko sa zmenia odds pre zmenu nezávislej premennej o jednu jednotku, pri ostatných premenných konštantných. Napríklad, OR = 2 znamená, že pre každé zvýšenie nezávislej premennej o jednu jednotku sa odds výskytu udalosti zdvojnásobia. OR = 0.5 znamená, že odds sa znížia na polovicu. Toto je kľúčové pre interpretáciu vplyvu jednotlivých premenných na pravdepodobnosť výsledku.
Ako sa logistická regresia líši od lineárnej regresie?
Hlavný rozdiel spočíva v type závislej premennej, ktorú modelujú. Lineárna regresia je určená na predikciu spojitých numerických hodnôt (napr. cena domu, predajné množstvo). Logistická regresia je naopak určená na predikciu pravdepodobnosti kategorických výsledkov, najčastejšie binárnych (napr. áno/nie, 0/1). Zatiaľ čo lineárna regresia predpokladá lineárny vzťah medzi nezávislými a závislou premennou, logistická regresia používa logistickú (sigmoidnú) funkciu na transformáciu lineárnej kombinácie premenných do pravdepodobnosti.
Kedy by som mal zvážiť použitie iného klasifikačného modelu namiesto logistickej regresie?
Logistická regresia je skvelá pre mnoho úloh, ale existujú situácie, kedy iné modely môžu fungovať lepšie. Ak sú vzťahy medzi vašimi premennými veľmi zložité a nelineárne, alebo ak máte veľa interakcií medzi premennými, ktoré nie je jednoduché explicitne definovať, môžu byť vhodnejšie modely ako rozhodovacie stromy, náhodné lesy (random forests), gradient boosting stroje (GBM) alebo podporné vektorové stroje (SVM). Taktiež, ak sú dáta extrémne rozsiahle a vyžadujú si veľmi hlboké učenie, neurónové siete môžu poskytnúť lepšie výsledky. Vždy je dobré vyskúšať viacero modelov a porovnať ich výkon na vašich konkrétnych dátach.
