W jaki sposób prognozować popyt na produkty w sklepie online?

by Anna Nowelska
E-commerce i sprzedaż online

Podziel się artykułem:

Analiza źródeł danych

Historia sprzedaży to kluczowy wskaźnik trendów, pozwalający rozróżnić zarówno długoterminowy wzrost, jak i krótkoterminowe wahania popytu. Analizując serie czasowe z ostatnich kilku lat, można wyłapać sezonowe cykle oraz anomalie wynikające np. ze zmian w asortymencie czy nagłych wstrząsów rynkowych. W praktyce oznacza to tworzenie tabeli, w której każdy rekord zawiera datę sprzedaży, ilość, wartość produktu oraz dodatkowe atrybuty, takie jak kanał sprzedaży czy metoda płatności.

Aktywność marketingowa – obejmująca kampanie reklamowe, promocje czy działania SEO – stanowi kolejne kluczowe źródło danych. Każda zmiana budżetu, treści reklamowej czy targetowania może znacząco wpłynąć na chwilowy skok popytu. Dlatego w zestawieniu danych warto dodać kolumny opisujące datę startu i zakończenia kampanii, jej koszt oraz segment docelowy. Dzięki temu model prognozowania uwzględni efektywność działań marketingowych i rozróżni naturalny wzrost od wzrostu wywołanego promocją.

Należy uwzględnić także czynniki zewnętrzne – sezonowość, wydarzenia branżowe, święta, a nawet prognozy pogody. Sezonowe szczyty sprzedaży widoczne są szczególnie w produktach silnie powiązanych z konkretnymi okazjami, np. prezentami świątecznymi. Dodając zmienne binarne oznaczające okresy świąteczne lub wydarzenia specjalne, model może rozróżnić typowe wzorce sezonowe od nietypowych skoków spowodowanych np. obniżkami cen.

Przygotowanie danych to kluczowy etap gwarantujący wiarygodność prognoz. Pierwszym krokiem jest identyfikacja brakujących wartości i duplikatów. Brakujące rekordy w kolumnie „ilość” mogą wprowadzić bias, dlatego warto zastosować imputację, np. średnią z poprzednich dni, lub bardziej zaawansowane techniki, takie jak interpolacja wierszowa. Duplikaty, które pojawiają się przy błędnym importowaniu danych, należy usuwać, aby nie podwajać sprzedaży i nie zafałszować trendu.

Ostatecznym celem jest zbudowanie solidnego fundamentu dla modelu – czystego, kompletnego zestawu danych, w którym każdy wiersz reprezentuje jedno unikalne zdarzenie sprzedażowe, a kolumny zawierają wszystkie zmienne, które mogą wpływać na przyszły popyt. Taka baza pozwala efektywnie wykorzystać statystyczne modele prognozowania (np. ARIMA, Prophet) oraz modele uczenia maszynowego (regresja, lasy losowe, XGBoost). Kolejny rozdział skupi się na wyborze odpowiedniego modelu, który najlepiej dopasuje się do zebranych danych i spełni wymagania przewidywania popytu w sklepie online.

Wybór odpowiedniego modelu

Po przygotowaniu danych do analizy kolejnym kluczowym krokiem jest wybór odpowiedniego modelu prognozowania, który potrafi uchwycić dynamikę sprzedaży w sklepie online. W zależności od charakterystyki szeregu czasowego dostępne są dwie główne grupy metod – klasyczne modele szeregów czasowych oraz bardziej elastyczne algorytmy uczenia maszynowego.

Statystyczne modele (ARIMA, SARIMA, Prophet) sprawdzają się, gdy w danych występuje wyraźna sezonowość lub trend.

ARIMA: dopasowuje zarówno trend, jak i szumy, dzięki czemu jest skuteczny przy danych z umiarkowaną sezonowością.
SARIMA: rozszerza ARIMA o komponent sezonowy, co pozwala na modelowanie okresów, np. świątecznych wzrostów sprzedaży.
Prophet: oferuje prostą obsługę świąt i długoterminowych trendów; idealny dla firm, które chcą szybko wdrożyć model bez głębokiej konfiguracji.

Modele ML – regresja liniowa, lasy losowe, XGBoost – zapewniają większą elastyczność, szczególnie gdy prognozowanie opiera się na wielu zmiennych wejściowych. Regresja pozwala zrozumieć wpływ poszczególnych czynników, a lasy losowe oraz XGBoost efektywnie radzą sobie z nieliniowościami i interakcjami między zmiennymi.

W praktyce warto podjąć decyzję opartą na kilku kryteriach:

Dokładność na próbce testowej – MAPE, RMSE, MAE. Im niższa wartość, tym lepsze prognozy.
Horyzont prognozy – krótkoterminowe modele (np. ARIMA) mogą działać lepiej przy 1‑2 tygodniach, podczas gdy ML lepiej sprawdza się przy dłuższym okresie.
Sezonowość i święta – jeśli przewiduje się silne wzrosty w określonych terminach, wybór SARIMA lub Prophet z uwzględnieniem świąt jest uzasadniony.
Rozbudowa danych wejściowych – przy dużej liczbie czynników (marketing, trendy branżowe) ML może przynieść wyższą wydajność.
Wydajność obliczeniowa – klasyczne modele wymagają mniej zasobów, a ML może wymagać intensywnego tuningu.

Aby uzyskać wiarygodne prognozy, proces budowy modelu powinien obejmować:

rozdzielenie danych na zbiór treningowy i walidacyjny (np. 80/20),
wykrywanie i usuwanie outlierów oraz wypełnianie braków,
skonfigurowanie hiperparametrów (np. liczba kroków autoregresyjnych w ARIMA, głębokość drzew w XGBoost),
ocenę modeli na zbiorze walidacyjnym i porównanie ich skuteczności przy użyciu wspomnianych metryk.

Współczesne wdrożenia prognozowania nie kończą się na wyborze modelu. Właściwe monitorowanie pozwala wykrywać drifty oraz konieczność retrainingu. W praktyce warto zautomatyzować pipeline:

regularne pobieranie nowych danych (codziennie, tygodniowo),
automatyczna aktualizacja modelu przy przekroczeniu określonego progu błędu,
archiwizacja wyników i analiza retrospektywna, aby ciągle podnosić jakość prognoz.

Wybierając model prognozowania kluczowe jest dopasowanie go do specyfiki danych oraz celów biznesowych – dzięki temu można efektywnie przewidywać popyt i optymalizować zasoby w sklepie online.

Czyszczenie i transformacja danych

Przed stworzeniem modeli prognozowania popytu kluczowym etapem jest dokładne czyszczenie i transformacja danych – gwarantuje to, że algorytmy otrzymują czyste wejście. Bez odpowiedniego przygotowania nawet najbardziej zaawansowane rozwiązania, takie jak ARIMA, Prophet czy XGBoost, mogą generować wyniki zbyt zróżnicowane i nieufne. Dlatego warto poświęcić czas na systematyczne usuwanie błędów, które mogłyby zakłócić prognozy.

Obsługa braków

Najczęściej spotykanym problemem w bazach sprzedażowych są brakujące wartości. Najprostsze, a zarazem skuteczne sposoby radzenia sobie z nimi to imputacja medianą oraz interpolacja liniowa. Zastępowanie medianą pozwala zachować stabilność rozkładu nawet przy obecności skrajnych wartości, podczas gdy interpolacja liniowa sprawdza się idealnie w szeregach czasowych, gdzie dane są ze sobą ściśle powiązane.

Brakujące daty – uzupełnianie przy pomocy średnich dziennych.

W praktyce oznacza to, że gdy w bazie brakuje sprzedaży za konkretny dzień, oblicza się średnią dzienną na podstawie poprzednich i następnym dni, a następnie wstawia się tę wartość. Dzięki temu model nie zostanie „zaskoczony” przez niespodziewane przerwy – szczególnie istotne przy analizie sezonowości.

Outliery

Sprzedaż często zawiera ekstremalne wartości – na przykład nagłe wzrosty spowodowane promocjami, które nie odzwierciedlają rzeczywistego trendu. Usunięcie tych outlierów lub ograniczenie ich (tzw. capping) pozwala uniknąć zniekształcenia współczynników modelu. Do identyfikacji ekstremów najczęściej stosuje się regułę IQR (interquartile range) lub technikę Z‑score, dzięki czemu można odpowiednio przetworzyć problematyczne obserwacje.

Skalowanie

Wielu algorytmów ML, w szczególności regresji liniowej oraz lasów losowych, działa lepiej, gdy dane mają podobną skalę. Normalizacja (min‑max) i standaryzacja (z‑score) przyczyniają się do szybszej konwergencji oraz redukcji wariancji. W kontekście prognozowania popytu skalowanie pozwala na bardziej równomierne traktowanie różnych cech – od liczby zamówień, przez ceny, po zmienność sezonową.

Efekt

Wprowadzenie powyższych technik przyczynia się do stabilniejszego modelu, zmniejszenia wariancji oraz zwiększenia przewidywalności. Czytając dalej, dowiesz się, jak podzielić dane na zestawy treningowe i testowe, dobrać odpowiednie metryki oraz przeprowadzić walidację krzyżową, aby uzyskać model gotowy do produkcji.

Tworzenie modelu i walidacja

Tworzenie modelu i jego walidacja to kluczowy etap prognozowania popytu, w którym teoria spotyka się z praktyką. Po przeprowadzeniu czyszczenia i transformacji danych warto podzielić zbiór na części uczące i testowe, korzystając z train‑test split oraz cross‑validation. Zazwyczaj przydzielamy około 70‑80 % obserwacji do treningu, a resztę – 20‑30 % – do walidacji. Dodatkowo, aby odzwierciedlić rzeczywistą dynamikę rynku, wyodrębniamy najnowsze miesiące jako zestaw testowy, co pozwala symulować prognozy na przyszłość i unikać danych, które już miały wpływ na modele.

Weryfikując skuteczność, warto sięgnąć po kilka metryk – MAE (średni błąd bezwzględny), RMSE (pierwiastek z średniego kwadratu błędu) oraz MAPE (średni procentowy błąd absolutny). Każda z nich ma swoje zalety: MAE jest mniej wrażliwy na wartości skrajne, RMSE przyznaje większą wagę większym odchyleniom, a MAPE ułatwia porównanie dokładności pomiędzy różnymi produktami o różnych poziomach sprzedaży. Kombinacja tych wskaźników daje pełniejszy obraz wydajności modelu i pomaga zidentyfikować obszary wymagające optymalizacji.

Walidacja nie kończy się jedynie na obliczeniu metryk. Proces iteracyjny dopasowania parametrów – na przykład liczby drzew w Random Forest czy liczby epok w sieciach neuronowych – pozwala minimalizować błędy i uniknąć przeuczenia. Zwykle zaczynamy od prostego modelu, a następnie stopniowo wprowadzamy złożoność, monitorując wpływ zmian na MAE, RMSE i MAPE. Analiza reszt, czyli różnic między wartościami rzeczywistymi a prognozowanymi, jest kluczowa dla wykrycia systematycznych błędów, które mogą wskazywać na brak istotnych cech lub potrzebę przekształcenia zmiennych.

Kiedy model osiągnie stabilne wyniki na zestawie walidacyjnym, przechodzimy do końcowego etapu – przygotowania do produkcji. W tym momencie ważne jest, aby upewnić się, że pipeline danych (od pobierania surowych informacji do końcowej prognozy) działa bezbłędnie i jest skalowalny. Wdrożenie można zrealizować poprzez utworzenie endpointu API zwracającego prognozy w formacie JSON, a następnie integrację z systemem zarządzania zapasami. Dzięki rygorystycznej walidacji modelu możemy go wprowadzić do środowiska produkcyjnego z pełnym zaufaniem, wiedząc, że przewidywania są wiarygodne i zgodne z oczekiwaniami biznesowymi.

Integracja prognozy z systemem

Rozpoczęcie praktycznej integracji prognoz z systemem zarządzania zapasami wymaga przemyślanej architektury, która jednocześnie zachowa skalowalność i elastyczność. API pełni w tym procesie rolę mostu łączącego model z aplikacją e‑commerce, oferując endpointy zwracające prognozy w przejrzystym formacie JSON. Dzięki takiej strukturze dane mogą być łatwo konsumowane przez różne warstwy – od front‑endu po systemy logistyczne – co sprzyja szybkiej adaptacji do zmian popytu. Webhook natomiast umożliwia automatyczne wywołanie prognozy w momencie pojawienia się nowej transakcji, aktualizacji stanu magazynowego lub zmiany sezonowości. Takie rozwiązanie pozwala na natychmiastowe odświeżenie danych w dashboardzie oraz w zapasach, minimalizując ryzyko niedopasowania.

Dashboard, jako interfejs wizualny, odgrywa kluczową rolę w monitorowaniu wyników prognozowania. Powinien prezentować kluczowe wskaźniki – takie jak prognozowana sprzedaż, zapasy na etapie bezpieczeństwa czy przewidywane poziomy rotacji – w sposób intuicyjny i kontekstowy. Warto zintegrować dynamiczne wykresy liniowe oraz heatmapy, które umożliwią szybkie wykrycie odchyleń od planu. Dashboard powinien również pozwalać na filtrowanie według produktów, kategorii czy okresów, co umożliwia menedżerom eksplorację danych w sposób odpowiadający ich potrzebom operacyjnym. Dzięki temu prognozowanie staje się nie tylko precyzyjnym narzędziem, ale także łatwym do zrozumienia przez wszystkie osoby zaangażowane w procesy zakupowe i magazynowe.

Automatyka, obejmująca harmonogram batch‑processing oraz cykliczne retraining co tydzień, zapewnia, że model pozostaje aktualny w dynamicznym środowisku rynkowym. Batch‑processing, uruchamiany w nocnych godzinach, może przetwarzać komplet danych historycznych oraz nowości, generując zestaw prognoz, który następnie jest publikowany przez API. Następnie, w momencie wywołania webhooka, aktualne prognozy stają się natychmiastowo dostępne w dashboardzie. Regularne retraining pozwala uwzględnić nowe trendy, sezonowe wzorce oraz reakcje klientów na kampanie marketingowe, co jest kluczowe dla utrzymania wysokiej jakości prognoz.

Praktyka szybkiej reakcji na zmiany rynkowe wymaga również monitorowania jakości prognoz w czasie rzeczywistym. Po każdej aktualizacji danych system powinien automatycznie porównywać prognozy z rzeczywistymi wynikami sprzedaży, generując alerty w przypadku przekroczenia określonych progów błędu. Takie podejście umożliwia szybkie dostosowanie harmonogramów zamówień, strategii cenowych czy planów marketingowych. Dodatkowo, dzięki integracji z systemem zarządzania kampaniami, prognozy mogą posłużyć do dynamicznego dopasowania budżetów reklamowych i testów A/B, podnosząc efektywność działań promocyjnych.

W rezultacie integracja prognoz z systemem staje się kompleksowym ekosystemem, w którym dane, modele i decyzje operacyjne płynnie współdziałają. Dzięki API, webhookom, dashboardom i automatyzacji prognozowanie staje się realnym wsparciem dla zarządzania zapasami, umożliwiając precyzyjne planowanie, redukcję kosztów i zwiększenie satysfakcji klientów. Te elementy łączą się z kolejnymi etapami zarządzania wynikami, stanowiąc solidny fundament dla dalszego rozwoju strategii prognozowania w e‑commerce.

Kontrola wyników i dostosowanie

Kontrola wyników prognozowania pozwala na szybkie reagowanie na odchylenia i utrzymanie wysokiej precyzji modeli. Kluczowe wskaźniki, takie jak dokładność prognozy, rotacja zapasów oraz sprzedaż wyprzedanych produktów, są monitorowane w czasie rzeczywistym. Dzięki temu uzyskujemy pełny obraz efektywności prognozowania, a porównanie trendów w danych sprzedażowych z rzeczywistymi wynikami pozwala wyciągać wnioski, które wpływają na kolejny cykl modelowania. Analiza tych danych umożliwia zidentyfikowanie obszarów wymagających optymalizacji modelu.

Aby uniknąć kryzysów magazynowych, wprowadzamy system alertów przy przekroczeniu ustalonych progów błędu:

Jeśli różnica między prognozą a sprzedażą realną przekroczy 10 %, system automatycznie powiadamia dział zakupów.
Alert o rotacji zapasów poniżej średniej rynkowej spowoduje natychmiastowe zainicjowanie planu wyprzedaży.
W przypadku spadku sprzedaży wyprzedanych produktów powyżej 5 %, system aktywuje moduł rekomendacji cenowych.

Takie natychmiastowe reakcje pozwalają minimalizować straty i optymalizować koszty magazynowania.

Regularne retraining modeli jest kluczowe dla zachowania ich trafności w dynamicznym środowisku e‑commerce. Cykliczne aktualizacje, oparte na najnowszych danych transakcyjnych, umożliwiają modelom „odświeżanie” wiedzy i lepsze przewidywanie sezonowych wahań popytu. Proces retraining jest automatyzowany: co tydzień pipeline zbiera nowe dane, trenuje model i testuje go pod kątem metryk jakościowych. Jeśli nowy model wykazuje większą precyzję, zastępuje poprzedni w produkcji; w przeciwnym razie zostaje wycofany, a błąd zapisany do bazy do dalszej analizy.

Optymalizacja działań marketingowych na bazie prognoz wymaga łączenia analizy danych z testowaniem hipotez. W ramach testów A/B wykorzystujemy prognozy, aby wybrać segmenty klientów najbardziej skłonnych do zakupu w określonych okolicznościach. Dynamiczne dopasowanie cen, oparte na analizie prognozowanego popytu, pozwala na maksymalizację marży przy zachowaniu konkurencyjności. Model cenowy uwzględnia zarówno prognozy sprzedaży, jak i aktualne koszty logistyczne oraz zachowania konkurencji, co daje pełniejszy obraz wpływu zmian cenowych na wolumen sprzedaży.

Kontrola wyników oraz ciągłe dostosowywanie modeli stanowią fundament ciągłego wzrostu efektywności operacyjnej. Dzięki monitorowaniu KPI, szybkim alertom, regularnym retrainingom oraz optymalizacji kampanii firma jest w stanie utrzymać przewagę konkurencyjną, minimalizować ryzyko wyczerpania zapasów i maksymalizować zwrot z inwestycji w marketing. Współpraca pomiędzy działami sprzedaży, logistyki i marketingu oraz stała iteracja na podstawie danych tworzą zwinny system, który adaptuje się do zmian rynkowych i spełnia oczekiwania klientów w dynamicznie zmieniającym się środowisku online.

Anna Nowelska

Anna Nowelska tworzy Pixels.pl — miejsce, w którym marketing spotyka technologię. Specjalizuje się w SEO/SEM, automatyzacji i zastosowaniu AI w e-commerce. Publikuje przewodniki, checklisty i case studies, które pomagają marketerom i właścicielom firm przechodzić od pomysłu do wdrożenia. Stawia na mierzalne efekty, proste procesy i narzędzia, które realnie oszczędzają czas.