Hur jag byggde en mötesapp på tio dagar

I mars i år satt jag och bearbetade ett möte manuellt för ungefär femtonde gången. Lyssna igenom, skriva ner vad som bestämdes, vem som tar vad, vad nästa steg är. Det tog runt 30 minuter per möte.

Jag hade ett automatiserat flöde för röstmemon sedan tidigare. Det fungerade bra för egna tankar och korta anteckningar. Men möten är ett annat problem. Flera röster. Fler beslut att hålla isär. Och en struktur som faktiskt behöver innehålla handlingsplaner, inte bara sammanfattningar.

Den 25 mars testade jag en transkriberings-tjänst som kan identifiera vem som pratar. Dagen efter hade jag låst en teknisk uppsättning. Den 5 april var appen live.

Mötesanteckningar är ett löst problem som ingen löst bra

Det finns massor av sätt att hantera möten. Antecknar du under mötet tappar du uppmärksamheten. Litar du på minnet försvinner hälften. Spelar du in och lyssnar igenom lägger du dubbelt så lång tid.

Det jag ville ha var enkelt: ladda upp inspelningen och få ut en strukturerad sammanfattning med vem som sa vad, vad som bestämdes och vem som tar vilket ansvar. Utan att behöva göra det manuellt.

Det finns verktyg som löser delar av det. Inget som löste det på det sätt jag ville, på svenska, med en hanterbar kostnad och utan att mina kunders samtal hamnar i ett tredjepartsföretags databas.

Tio dagar: utforskning till live

Den 25 och 26 mars utforskade jag AssemblyAI, en tjänst som transkriberar ljud och identifierar vem i samtalet som pratar. Fungerade på svenska. Kostnaderna var rimliga.

Den 26 mars bestämde jag vilka verktyg jag skulle använda och hur allt hänger ihop. En webbapp i Next.js, en databas på Neon, fillagring via Cloudflare R2 och de två AI-tjänsterna för transkribering och strukturering.

Sedan kodade jag. Med Claude Code som verktyg och mig själv som arkitekt. Den 5 april var appen live på talbar.se med en komplett pipeline: ladda upp, transkribera, strukturera, redigera och exportera.

Tio dagar från idé till produktionsklar app.

Vad appen faktiskt gör

Flödet är rakt:

Du laddar upp en inspelning. Ljud eller video, upp till 2 timmar.
AssemblyAI transkriberar och identifierar vem som pratar. Du får ett transkript med “Talare A”, “Talare B” och så vidare.
Du döper om talarna till riktiga namn.
En AI läser transkriptet och skriver ut titel, sammanfattning, action items, beslut, diskuterade frågor och nästa steg.
Du redigerar direkt i appen om något är fel eller saknas.
Du kopierar eller laddar ner resultatet som en markdown-fil.

Transkriptet ligger alltid kvar som källa. Om AI:n missar något kan du gå tillbaka och titta på exakt vad som sades.

Vad det kostar att driva

52 möten har bearbetats i appen hittills. AI-kostnaden per möte är runt en hundradel av en krona, ungefär. Transkriberingen kostar proportionellt mot inspelningslängden och ryms väl inom gratisnivåerna för ett fåtal möten i månaden.

Fillagringen via Cloudflare R2 har noll kostnad för datatransport ut, vilket var det avgörande valet. En vanlig lösning tar ut avgifter varje gång en fil lämnar lagringen, och för ljudfiler på 50-500 MB adderar det sig snabbt.

Hosting på Vercel ingår i den befintliga plan jag använder för andra projekt. Databasen är gratis upp till 0,5 GB.

Total driftkostnad för nuläget: nära noll. Det ökar med volym, men marginellt.

Vad jag lärde mig av att vara min egen första användare

Jag kör appen på mina egna möten. Kundmöten med Konsign-kunder, genomgångar med konsultuppdrag, session-summaries. Det innebär att jag hittar buggar snabbt och vet exakt vad som saknas.

Produkten fick en speaker rename-funktion tidigt för att jag behövde döpa om “Talare A” till “Viktor” varje gång. Inline-redigering av AI-outputen kom till för att sammanfattningen ibland missade en detalj. Export-funktionen byggdes för att jag ville ha resultaten i mina egna dokument, inte låst i appen.

Det är den enklaste formen av produktutveckling: använd det du bygger och lägg till det som saknas.

Det som inte kom är lika tydligt: betalsystemet. Appen är gratis att använda idag för att jag inte hunnit prioritera det. Det är nästa steg.

Jag har skrivit om hur ett liknande flöde fungerar för egna röstmemon i Röstmemo till sammanfattning på 2 minuter. Grundprincipen är densamma, men mötesflödet är mer komplext på grund av flera röster och behovet av strukturerat eftematerial.

Vanliga frågor

Fungerar det på svenska?

Ja. AssemblyAI hanterar svenska, inklusive talspråk och mötesjargong. Talarseparationen fungerar för samtal med 2 till ungefär 6-7 deltagare. Fler talare börjar bli svårare att skilja åt automatiskt.

Kan man se vad som faktiskt sades, inte bara sammanfattningen?

Ja. Transkriptet ligger kvar i appen och kan alltid öppnas. AI-sammanfattningen är en strukturering ovanpå det, inte en ersättning.

Kan jag bygga något liknande för min verksamhet?

Ja. Det är precis det jag visar i workshopen. Du behöver inte bygga en hel SaaS-app för att automatisera dina möten. En enklare version kan sättas upp under en session om du vet vilka delar som hänger ihop. Boka en workshop så går vi igenom vad som passar din specifika situation.

Hur fick du idén?

Från att vara min egen kund. Jag hade redan ett flöde för röstmemon och insåg att möten var ett separat, olöst problem. Att bygga ett verktyg för mig själv och se om andra har samma behov är hur jag brukar testa idéer.