Top 7 belangrijkste randvoorwaarden om met Machine Learning in accountancy te starten

18-02-2022 Pieter de Kok Blog

Mijn laatste blog Data Praat was een oproep tot samenwerking op snijvlak accountancy en Machine Learning (en slipstream Artificial Intelligence (AI). Het loopt geen storm. We staan letterlijk nog aan de vooravond van introductie van deze technieken in ons beroep en een handvol kantoren is aan het ontdekken wat Machine Learning (ML) zou kunnen betekenen. De kat uit de boom kijken, letterlijk.

Er zijn nog geen ML-/ AI-toepassingen en dat is ook volstrekt logisch.

Het is mijn overtuiging dat we eerst moeten onderzoeken en experimenteren in een kleine setting, voordat we de hele accountancy sector bombarderen met complexe enquêtes (over ML-/ AI- toepassingen in de accountancy)  en over-the-top verwachtingen creëren.

Het ‘op de zeebodem snorkelen naar goud’-gehalte is weer ouderwets hoog, ‘the fear of missing out,’ maar we weten letterlijk nog niet wat we met ML / AI kunnen in de accountancy. Data-science is in vergelijking met data-analyse een ‘different game’, dat weten we wel.

Als het gaat om ‘data-analyse’ dan is het fair te stellen dat het overgrote deel van de sector nog driftig aan het experimenteren is met borging van data-analyse (techniek die ruim 30 jaar oud is), process mining (circa 10 jaar oud) en dashboarding met Tableau, PowerBI (zeg 5 jaar oud) in het werkveld. En dat loopt verre van soepel.

Uiteraard is er ook nog ‘old school’ statistiek en wiskunde, waarvan we kunnen zeggen dat dit deels onder data-science valt en deels al jaren is ingeburgerd (e.g. de statische steekproef).

Al dat gezegd hebbende, wil ik bijdragen aan de ML-ontwikkeling in de accountancy- en bredere analytics praktijk vanuit belang, voor het plezier vanuit Coney Minds en voor het beroep als geheel. Als we allemaal bijdragen, kunnen we in kleine stappen heel ver komen.

Uit onze experimenten is tot heden duidelijk geworden wat de randvoorwaarden zijn voor het starten met een ML-model in de accountancy.

Concreet zijn dit:

  1. Definieer het probleem op adequate wijze (objectief, gewenste output,…).
  2. Verzamel gegevens.
  3. Kies een maatstaf voor succes.
  4. Stel een evaluatieprotocol, en de verschillende beschikbare protocollen, in.
  5. Bereid de gegevens voor (omgaan met ontbrekende waarden, met categoriale waarden,…).
  6. Ontwikkel een benchmarkmodel.
  7. Ontwikkel een beter model door afstemming om de best mogelijke prestaties te krijgen.

1. Definieer het probleem

Het eerste en een van de meest cruciale dingen om te doen, is het uitzoeken wat de invoergegevens zijn en de daarbij behorende verwachte uitkomsten.

De volgende vragen moeten in de voorbereiding beantwoord worden:

  • Wat is nu precies het hoofddoel? Wat proberen we te voorspellen? Wat is het probleem, het risico? Hoe scherper geformuleerd, hoe beter.
  • Wat zijn de doelkenmerken?
  • Wat zijn de invoergegevens? Zijn deze beschikbaar?
  • Met wat voor probleem hebben we te maken? Binaire classificatie? Clusteren?
  • Wat is de verwachte verbetering t.o.v. bestaande data-analyses?
  • Welke output verwachten we t.o.v. het probleem, het risico?
  • Hoe wordt het doelkenmerk gemeten?

2. Verzamel gegevens

Dit is de eerste echte stap naar de ontwikkeling van een Machine Learning model; gegevensverzameling. Dit is essentieel en zal bepalend zijn voor de kwaliteit en betrouwbaarheid van het model: hoe meer en hoe beter de gegevens die we krijgen, hoe beter ons model zal presteren.

3. Kies een maatstaf voor succes

Als je iets wilt controleren, moet het waarneembaar zijn. En om succes te bereiken, is het essentieel om te definiëren wat als succes wordt beschouwd: Nauwkeurigheid? Afwijkingen > norm?

Het houdt ook rechtstreeks verband met het soort probleem waarmee we worden geconfronteerd:

  • Bij regressieproblemen worden bepaalde evaluatiestatistieken gebruikt, zoals de gemiddelde kwadratische fout (MSE).
  • Classificatieproblemen gebruiken evaluatiestatistieken als precisie en nauwkeurigheid.

4. Stel een evaluatieprotocol in

Zodra het doel duidelijk is, moet worden besloten hoe de voortgang naar het bereiken van het doel wordt gemeten. De meest voorkomende evaluatieprotocollen zijn:

  • Hold Out validatieset
  • K-fold validatie

5. Bereid de gegevens voor

Voordat begonnen wordt met het trainen van modellen, moeten de gegevens getransformeerd worden op een manier die kan worden ingevoerd in een Machine Learning model. De meest voorkomende technieken zijn:

  • Omgaan met ontbrekende gegevens
  • Omgaan met categorische gegevens
  • Feature Scaling

6. Ontwikkel een benchmarkmodel

Het doel in deze stap van het proces is om een ​​benchmarkmodel te ontwikkelen dat als basis dient, waarna we de prestaties van een steeds beter afgestemd algoritme gaan meten.
Benchmarking vereist dat experimenten vergelijkbaar, meetbaar en reproduceerbaar zijn.

 

7. Ontwikkel een beter model en stem de hyperparameters af

Een goed model vinden
Een van de meest gebruikelijke methoden om een ​​goed model te vinden, is Cross validatie. In Cross validatie stellen we in:

  • Het aantal partities waarin we onze data gaan splitsen.
  • Een scoremethode (die zal variëren afhankelijk van de aard van het probleem: regressie, classificatie,…).
  • Enkele geschikte Machine Learning modellen die we willen controleren.

Het model met de beste Cross validatie score zal degene zijn voor het optimaliseren van de hyperparameters.

De hyperparameters van het model afstemmen
Een Machine Learning algoritme heeft twee soorten parameters. Het eerste type bestaat uit  de parameters die worden geleerd tijdens de trainingsfase en het tweede type bestaat uit de hyperparameters die we doorgeven aan het Machine Learning model.

Zodra we het model hebben geïdentificeerd dat we zullen gebruiken, is de volgende stap het afstemmen van de hyperparameters om de best mogelijke voorspellende kracht te verkrijgen. De meest gebruikelijke manier om de beste combinatie van hyperparameters te vinden, wordt Grid Search Cross Validation genoemd.

We delen deze kennis omdat we uiteindelijk de grote hamvraag moeten beantwoorden: Wat gaan we met Machine Learning doen, wat we niet reeds met data-analyse en of process mining (kunnen) doen?

Hiervoor gaan wij in gesprek met al onze cliënten en pellen die hamvraag stap voor stap met ze af . De kans is goot dat hier een top-3 aan zeer waardevolle, en verder te onderzoeken, ML-toepassingen voor de accountancy en analytics praktijk uitkomen. Die top-3 moeten we, wat mij betreft, als sector collectief oppakken. Wij zijn reeds begonnen en staan open voor samenwerking. Die samenwerking kan ook zijn dat we reeds getrainde modellen gaan integreren in onze bestaande praktijk om te beoordelen of we een soort vliegwiel kunnen krijgen. Heb jij een reeds getrainde dataset, wil je mee-experimenteren, laat het ons weten!

 

 

Pieter de Kok
Geschreven door:

Pieter de Kok