Från OCR till strukturerad data: så omvandlas fakturor

2026-03-12

En leverantörsfaktura i PDF-format är utformad för mänskliga ögon, inte för datorer. Att omvandla den till strukturerad, maskinläsbar data kräver flera steg: optisk teckenigenkänning, layoutanalys, tabellextraktion, datanormalisering och validering. Den här artikeln beskriver hela kedjan och förklarar var varje steg kan gå fel.

OCR-avläsning

Layoutanalys

Tabellextraktion

Normalisering

Validering

Vad är OCR?

OCR står för Optical Character Recognition, eller optisk teckenigenkänning. Tekniken gör det möjligt för datorer att läsa text i bilder, skannade dokument och PDF-filer. Istället för att en människa manuellt skriver av informationen kan OCR identifiera och extrahera texten. Modern OCR använder djupinlärning för att hantera varierande typsnitt, skevheter i skanningen, låg upplösning och störningar som stämplar eller handskrivna anteckningar.

Kvaliteten på OCR-avläsningen avgör resten av processen. Ett felaktigt tolkat tecken i ett fakturabelopp, till exempel att siffran 8 läses som 6, leder till felaktig data i alla efterföljande steg. Därför använder moderna system konfidenspoäng per tecken och ord, och flaggar osäkra avläsningar för verifiering.

Varför OCR för fakturor?

Fakturor är ett utmärkt användningsfall för OCR. De flesta företag tar emot fakturor i en mängd format som PDF, e-post och skannade papperskopior, och informationen behöver matas in i ekonomisystem. Utan automatisering innebär det att någon manuellt läser av och registrerar belopp, fakturanummer, datum, moms och leverantörsuppgifter.

Det manuella arbetet är inte bara tidskrävande, det leder också till fel, vilket beskrivs närmare i artikeln om vad fakturahantering innebär. Siffror blandas ihop, rader missas och dubbletter slinker igenom. OCR löser detta genom att extrahera fakturadata och göra den tillgänglig digitalt.

Layoutanalys: att förstå dokumentets struktur

Rå text utan positionsinformation är otillräcklig. En faktura innehåller rubriker, adressblock, artikeltabeller, summor och fotnoter, och deras inbördes relation bestäms av layouten. Layoutanalys identifierar dokumentets visuella struktur: var finns tabeller, vilka textblock hör ihop, var börjar och slutar en artikelrad, och vilken text är en rubrik respektive ett värde.

Samma typ av information kan placeras på vitt skilda ställen beroende på leverantör och ERP-system, något som beskrivs närmare i artikeln Varför fakturaformat skiljer sig så mycket mellan leverantörer. Fakturanumret kan stå i övre högra hörnet, i en sidopanel, eller mitt i ett textblock. Utan korrekt layoutförståelse riskerar systemet att läsa av fel fält eller blanda ihop data från olika delar av dokumentet.

Tabellextraktion: att identifiera rader och kolumner

De flesta fakturor innehåller en eller flera tabeller med artikelrader, typiskt med kolumner för artikelbeskrivning, antal, enhetspris, rabatt och radbelopp. Tabellextraktion innebär att identifiera tabellens gränser, separera rader från varandra och koppla varje cellvärde till rätt kolumn.

I praktiken är fakturor sällan välordnade. Tabeller saknar synliga kantlinjer, rader bryts över flera fysiska rader, kolumner har inkonsekvent bredd, och tilläggsinformation som rabatter eller kommentarer infogas mellan artikelrader. Skannade fakturor med sned orientering eller låg bildkvalitet adderar ytterligare komplexitet. Modern tabellextraktion använder maskininlärningsmodeller som tränats på stora datamängder av fakturaformat för att hantera dessa variationer.

Utmaningar i praktiken

Ett konkret exempel: ett entreprenadföretag tar emot en faktura från en betongfabrik. Fakturan är en skannad PDF med tre tabeller: en för levererade produkter med artikelnummer och kubikmeterpris, en för transporttillägg per leveransdag, och en sammanfattande tabell med totalbelopp och moms. Artiklarna har beskrivningar som sträcker sig över två rader, och det finns handskrivna tillägg i marginalen. Att korrekt identifiera alla tre tabellerna, separera artikelraderna, koppla transporttilläggen till rätt leveranser och ignorera marginalanteckningarna kräver avancerad dokumentparsning som går bortom enkel OCR.

Datanormalisering: att skapa enhetlighet

Data som extraheras från olika fakturor har sällan ett enhetligt format. Belopp kan anges med komma eller punkt som decimalavskiljare. Datum skrivs som "2026-03-12", "12/3-2026" eller "12 mars 2026". Enheter varierar mellan "st", "styck", "m3" och "ton". Datanormalisering omvandlar alla dessa varianter till ett standardiserat format som möjliggör maskinell jämförelse.

Normaliseringen omfattar även leverantörsidentifikation, det vill säga att matcha leverantörsnamn och organisationsnummer mot ett leverantörsregister, och kategorisering av artikelrader mot befintliga avtal och offerter. Utan denna normalisering är det omöjligt att systematiskt jämföra fakturadata med avtalsdata, även om själva textextraktionen är korrekt.

Validering: att hitta avvikelser

Den strukturerade, normaliserade datan jämförs mot externa datakällor: avtalade priser, beställda kvantiteter, tidigare fakturor från samma leverantör och interna regler för momssatser och kontering. Varje fakturarads pris kontrolleras mot det avtalade à-priset, som en del av en automatiserad fakturakontroll, kvantiteten jämförs med leveransunderlag, och totalbeloppet verifieras mot summan av raderna inklusive moms.

Avvikelser som identifieras kan vara prisfel (fakturerat pris skiljer sig från avtalat pris), kvantitetsfel (fakturerad mängd stämmer inte med levererad mängd), dubbletter (samma leverans har redan fakturerats), eller formella fel (felaktig momssats, saknat fakturanummer). Varje avvikelse specificeras med information om vad som förväntades och vad som faktiskt fakturerades, vilket ger granskaren ett tydligt underlag för beslut.

Fördelar med automatiserad fakturabearbetning

Personal behöver inte mata in data manuellt och kan i stället fokusera på avvikelser
Maskinell kontroll eliminerar slarvfel som uppstår vid manuell avskrivning
Fakturor bearbetas på sekunder i stället för minuter
All data loggas digitalt från start, vilket förenklar revision
Volymerna kan öka utan att arbetsinsatsen ökar proportionellt

Sammanfattning

Processen från PDF till strukturerad data är en kedja av beroende steg: OCR extraherar text, layoutanalys identifierar dokumentstrukturen, tabellextraktion isolerar artikelrader, normalisering skapar enhetliga dataformat och validering jämför resultatet mot avtal och affärsregler. Varje steg bygger på det föregående. Kvaliteten i slutresultatet bestäms av den svagaste länken, och det är vanligtvis tabellextraktionen eller normaliseringen, inte själva OCR-avläsningen.

Attestro är ett fakturaverifieringsverktyg byggt av Älgamo Software AB. Det hanterar hela kedjan från OCR-avläsning och tabellextraktion till normalisering och verifiering mot ramavtal och offerter. Nyckeln är att systemet använder AI för att tolka avtalstexten, inte bara matcha mot fasta artikelkoder, vilket gör det användbart även för leverantörer med varierande fakturaformat. Boka en demo för att se hur det fungerar i praktiken.

Testa Attestro gratis med 25 sidor. Skapa konto