Modulkatalog/document-summarizer
Modul, Ekonomi och sälj

Dokumentsummerare

PDF eller URL till strukturerad bullet-lista med källor.

11/11
Tester godkända
7
Block per bundle
Ed25519
Signering
Produktion
Status
Ladda ner exempel-bundleVerifiera bundleBoka demo
Vad modulen gör

document-summarizer

Modul 12 av 16 i kapaciti-modules. Tar en lang text (PDF, web-artikel, kontrakt eller regulatorisk text) och producerar en strukturerad svensk summering dar varje pastaende kan sparas tillbaka till originaltexten. Audit-bundle bevisar vilka sektioner som refererades och vilken kalla som anvandes.

Anvandningsfall

En jurist, complianceansvarig eller CTO landar med 40 till 200 sidor regulatorisk text, ett 80-sidigt leverantorsavtal eller en branschanalys pa flera tusen ord. Manuell bearbetning tar timmar och resulterar ofta i en sammanfattning utan kall-spar. AI-summering utan kontroll riskerar att hallucinera fram pastaenden som inte finns i kallan, vilket i en regulatorisk kontext ar oacceptabelt.

Den har modulen loser tre problem samtidigt. Den producerar en svensk strukturerad summering pa minuter. Varje nyckelpunkt foljs av en KALLA-rad som citerar specifikt fras eller paragraf-referens. Audit-bundlen bevisar att kallan kom fran inmatad text och inte fran modellens latenta kunskap.

Konkret anvands modulen i tre scenarier. Forsta scenariot ar compliance-review dar en complianceansvarig matar in ett kapitel ur GDPR, AI Act eller branschspecifik forfattning och far en summering med risker, atgarder och oppna fragor anpassad till organisationens roll. Andra scenariot ar contract-redline dar en jurist matar in ett leverantorsavtal och far en lista pa klausuler som kraver omforhandling, med ordagrant citerade paragrafer. Tredje scenariot ar executive-briefing dar en CTO eller VD ska besluta utan att lasa hela dokumentet och behover en bottom-line med tydlig spar tillbaka till bevisning.

Input-schema

Inputen ar ett strukturerat objekt. Alla falt valideras innan modulen anropar Claude. Modulen avvisar invalida indata och gor det utan att forbruka tokens.

Faltet document_id ar en identifierare som binder bundlen till uppdraget. source innehaller type (pdf, url eller raw-text), valbar url, title och retrieved_at i ISO-format. text_content ar den fullstandiga texten som ska summeras, minst 200 tecken och ofta tiotusentals tecken. metadata innehaller word_count, language (sv, en eller other) och valbart page_count. summary_goal ar en av executive, compliance-review, technical-deep-dive eller contract-redline, och styr fokus i summeringen. target_length ar kort (100 till 200 ord), medel (300 till 600 ord) eller lang (800 till 1500 ord). audience innehaller role och expertise_level (beginner, intermediate eller expert), vilket styr djup och termanvandning. focus_areas ar en valbar array med teman som far extra utrymme i summeringen.

Output-format

Modulen producerar text som foljer en exakt struktur. Strukturen ar parsable, dvs nedstrooms-process kan extrahera fields utan AI. Outputen innehaller EXECUTIVE_SUMMARY (2 till 4 meningar), NYCKELPUNKTER (numrerade som PUNKT 1, PUNKT 2 etc, varje foljd av KALLA-rad), RISKER_OCH_VARNINGAR (0 till 5 rod-flaggor med egen KALLA), REKOMMENDERADE_ATGARDER (2 till 5 prioriterade atgarder anpassade till audience.role), FRAMEHALLANDE_FRAGOR (2 till 5 fragor for vidare undersokning), OSAKERA_TOLKNINGAR (0 till 3 platser dar dokumentet ar tvetydigt), CITATIONER_BEKRAFTADE (count av claimed-count), KALL_VERIFIERING_NOTERING (1 till 2 meningar om hur lasaren spot-check:ar), LANGD_SUMMERAT_TILL och KOMPRESSIONSGRAD.

parseSummaryOutput() ar exporterad och returnerar en typad struktur. Parsen ar tolerant for whitespace-variation men strikt for section-rubriker. Den ar permissiv mot saknad KALLA-rad pa enskild punkt sa att validateOutput kan flagga problemet explicit istallet for att tappa hela punkten under parsen.

Citation-disciplin

Den centrala designen ar att varje pastaende i NYCKELPUNKTER och RISKER ska kunna sparas tillbaka till text_content. System-prompten kraver att modellen citerar specifika fraser eller paragraf-nummer i KALLA-faltet. Citatet ska finnas ordagrant i kalltexten. Om modellen inte kan citera ska den klassa pastaendet som OSAKER istallet for att gissa.

validateOutput() flaggar punkter som saknar KALLA-rad. Runner-scriptet i scripts/run-document-summarizer.mjs kor en substring-scan som ytterligare kontroll, men det ar en hjalp och inte en garanti, eftersom modellen ibland forkortar citatet eller sammanslar tva fraser. For hard verification kraver man manuell granskning eller en separat fuzzy-match-modul i v1.1.

Audit-trail

Varje koring producerar en signerad audit-bundle med sju block i fast ordning. Forsta blocket loggar inputen inklusive text_content. Andra loggar kontext-laddning av summarizer-policyn. Tredje loggar agent-anrops-parametrar. Fjarde loggar raa outputen fran modellen. Femte loggar voice-validation. Sjatte loggar struktur-validation. Sjunde forseglar bundlen. Varje block hashas med SHA-256 och linkas till foregaende via prev_hash. Hela kedjan signeras med Ed25519. Verifiering sker via samma verifyBundle() som anvands i kapaciti-site.

Tamper-tester i tests/document-summarizer.test.mjs visar att en andring av rad output i block fyra bryter kedjans this_hash-kontroll omedelbart. Detta ar relevant for regulatorisk anvandning. Nar en complianceansvarig presenterar en summering till tillsyn kan teamet visa en signerad bundle som garanterar att summeringen producerats fran den text som inputtades, inte fran modellens latenta kunskap.

Voice-profile-injektion

Modulen anropar injectVoiceIntoPrompt() infor varje agent-anrop. Det innebar att system-prompten kompletteras med ban-listor for ord och tecken, ton-direktiv och ett exempel pa onskad ton. Default-voice ar kapaciti, men modulen accepterar voice-override i konstruktorn for att kora pa kundens vagnar. Validering sker mot samma profil efter att modellen svarat.

Strukturella valideringar

validateOutput() kor atta kontroller utover voice-checken. Saknad eller for kort EXECUTIVE_SUMMARY flaggas. Farre an fyra NYCKELPUNKTER flaggas. NYCKELPUNKT utan KALLA flaggas. Farre an tva REKOMMENDERADE_ATGARDER flaggas. Farre an tva FRAMEHALLANDE_FRAGOR flaggas. Saknad CITATIONER_BEKRAFTADE flaggas. Saknad KALL_VERIFIERING_NOTERING flaggas. Saknad LANGD_SUMMERAT_TILL eller KOMPRESSIONSGRAD flaggas. Alla flaggningar landar i audit-bundlen.

Konstruktor

Modulen instansieras utan argument for default-beteende, eller med { voice, model } for overrides. Default-modell ar claude-haiku-4-5 for snabb produktion. For kontrakts-summering med hog stake rekommenderas claude-opus-4-7 for djupare juridisk lasning. Voice-override anvands nar modulen kor pa kundens vagnar med en kund-specifik profil.

Konvergens med ovriga 16-modulers svit

Den har modulen kompletterar compliance-pipelinen. Outputen kan matas till compliance-tracker (modul 13) som korrelerar atgarder mot deadlines, eller till risk-register (modul 14) som halls a-jour med RISKER_OCH_VARNINGAR-blocket. Audit-bundle propageras genom hela pipelinen sa att en presenterad summering kan sparas tillbaka till originaldokumentet utan luckor.

Begransningar och v1.1-utveckling

V1.0 hanterar text_content som ren strang. Den hanterar inte direktladdning av PDF, OCR pa scannade dokument eller hamtning fran URL. Den anvandaren behover providera ren text. V1.1 planerar att lagga till en pre-stage som anropar OCR och URL-fetch som separata moduler, plus en fuzzy-citation-verifier som matar varje KALLA mot text_content med char-niva-likhet och rapporterar en confidence-siffra per punkt. V1.1 planerar ocksa table-of-contents-mode dar modulen producerar en hierarkisk index over dokumentet innan summeringen, och multi-document-mode dar tva eller flera relaterade dokument summeras tillsammans med cross-references.

Prova live

Kör dokumentsummerare i webbläsaren.

Justera input-objektet eller använd starter-värdena. När du trycker på Kör modulen anropas samma agent som i produktion. Audit-kedjan byggs framför dig och hela sessionen signeras med Ed25519 i samma format som exempel-bundlen ovan.

Input (document-summarizer schema)

JSON-payload som matchar modulens validateInput. Starter-värdena kommer från en riktig produktionskörning. Max 12 000 tecken.

Tecken: 4 107 / 12 000
Audit-kedja, live

Audit-kedjan visas här när scenariot körs

● Nyhetsbrev

EU AI Act, sandbox-status och svensk AI-infrastruktur.

En sammanfattning ungefär en gång i månaden. Vad förändrats i regelverket, vilka pilot-cases vi sett och vilka vendor-shifts som påverkar svenska bolag. Skickas av oss, inte av en automation som låtsas vara oss.

Uppgifterna används endast för nyhetsbrevet. Inga utskick utöver det utan separat samtycke. Avregistrera när som helst via länk i mailet.