Röstmemo till sammanfattning på 2 minuter
Jag spelar in nästan alla mina tankar utomhus. Under promenaden, på väg till bilen, direkt efter ett möte när allt fortfarande sitter färskt. Det är ostrukturerat, hopar sig lite, och jag pratar ofta i cirklar. Men det är mina verkliga tankar på riktigt, och jag ville fånga dem.
Problemet var att de bara låg där. Som råa ljudfiler ingen någonsin lyssnade på igen.
Nu hamnar de automatiskt i ett strukturerat dokument med sammanfattning, omnämnda projekt och källhänvisning. Jag gör ingenting manuellt. Det sker medan jag gör annat.
Så ser ett rått röstmemo ut
Den 6 januari spelade jag in det här (utdrag ur 2026-01-07.txt):
“Jag har fortfarande inte hört någonting från Edvard. Jag har inte hört av mig själv till Edvard. Och jag har inte skickat något e-mail i hans namn sedan två eller tre veckor tillbaka. Sen så har jag köpt domänen sitechecken.se som är up and running till 95%… och sen har jag också satt upp ett transcript-flöde som jag har försökt med tidigare. Och nu är jag äntligen kopplad, min Discord-bot har nu en ny mapp som den har tillgång till. Och ja, nu säger egentligen åten att jag har laddat upp nya filer i min Google Drive och sen kör den igenom hela flödet.”
Det är exakt så det låter. Ostrukturerat, hoppar mellan ämnen, avrundat med “tack så mycket!” Det är inte ett problem. Det är hur man tänker.
Och så här ser output ut
Samma dag, sparad som 2026-01-07.md i DailyTranscripts:
## Sammanfattning
- Kontaktade Martina angående båsprojektet, hon hade inga uppdateringar och ska höra av sig när de hittat lokal.
- Lundinsmöte hölls den 29:e, offert skickades samma dag. Uppföljning gjord efter sju dagar utan respons.
- Ny potentiell kund hörde av sig via e-post och frågade om demo den 16:e. Tre leads totalt i pipeline.
- Kidd-uppföljning angående Stripe och automatiska betalningar, ny betalänk skickad.
- Testimonial från Pricken mottagen och justerad; landningssida uppdateras när Alicias testimonial också är klar.
- Sitechecken.se nära MVP-status: flöde från webbanalys till e-postleverans nästan klart; transkriptflöde via Discord-bot och Google Drive nu aktivt.
## Omnämnda
- Konsign
- Lundins
- Kid Stockholm
Från pratström till strukturerade bullet points. De omnämnda projekten är länkade till rätt kundmappar. Filen har frontmatter med datum och taggar. Och längst ner ligger hela transkriptet kvar, om jag behöver gå tillbaka till källan.
Flödet bakom det
Det är fyra steg, och jag behöver inte göra något av dem manuellt:
1. Inspelning via Discord-bot
Jag har en Discord-bot kopplad till en specifik kanal. Spelar jag in ett röstmemo och lägger det där, hämtar boten filen och lägger den i en mapp i Google Drive. Jag kan göra det från telefonen var som helst.
2. Google Drive som mellanstation
Drive fungerar som en inkorg. Filen hamnar i en delad mapp med ett tjänstkonto som har läsrättigheter. Inget mer.
3. Transkribering med Whisper via AssemblyAI
Ett skript (transcribe.py) laddar ner nya filer från Drive, konverterar dem till 16kHz mono WAV och skickar dem till AssemblyAI för transkribering. Det returnerar en tidsstämplad textfil med allt talat. Inga talare att skilja på, det är bara jag. Transkriberingen är på svenska och tar ungefär lika lång tid som inspelningen tar att ladda upp.
4. Sammanfattning och sparning i DailyTranscripts
När transkriptet är klart skickas det till Claude med en instruktion: strukturera det här som en daglig sammanfattning med bullet points och lista omnämnda projekt. Resultatet sparas som YYYY-MM-DD.md i DailyTranscripts, med frontmatter och länkade wikilinks till rätt projekt.
Det är hela flödet.
Vad det faktiskt ger mig
Jag har nu 16 april spelat in röstmemon sedan januari. Det är ett par per vecka. Utan det här systemet hade de legat som ostrukturerade mp3-filer på Drive som jag aldrig lyssnat igenom igen.
Nu kan jag söka på “Lundins” i DailyTranscripts och se exakt vad jag tänkte den 7 januari, den 13 januari, den 19 januari. Allt sammankopplat, kronologiskt, sökbart. Det är min externa minne för allt jag jobbar på.
Det andra är det mentala. Jag pratar ut tankar jag annars hade kört runt med i huvudet. Det räcker med tre minuter under promenaden. Sen är det avlastat.
Det är inte ett stort projekt
Det tog en eftermiddag att sätta ihop. De flesta delarna finns redan: Discord, Google Drive, ett transkriberingsskript, Claude. Det handlar om att koppla ihop dem i rätt ordning.
Du behöver inte bygga exakt samma flöde. Kärnan är enkel: spela in något du annars bara hade glömt, låt AI strukturera det, spara det på ett ställe du faktiskt tittar i.
Det är den principen som gör skillnad, inte de specifika verktygen.
Vanliga frågor
Fungerar det på svenska?
Ja. Transkriberingen körs med språkinställning svenska och hanterar talspråk, omtagningar och ogrammatiska meningar utan problem. Det här är vardagligt tal, inte diktat.
Behöver jag en Discord-bot?
Inte nödvändigtvis. Discord-boten är min ingångspunkt, men du kan lika gärna ladda upp filer direkt till Drive eller spela in med en annan app som synkar. Det viktiga är att filen hamnar på ett ställe ett skript kan hämta den från.
Hur lång tid tar hela flödet?
En 5-minuters inspelning tar ungefär 2-3 minuter att transkribera och sammanfatta. Ofta är sammanfattningen klar innan jag ens tagit av mig skorna.
Sparas det rå transkriptet också?
Ja. Den strukturerade sammanfattningen är toppen av filen, men hela transkriptet ligger kvar längst ner. Om sammanfattningen missar någon detalj kan jag alltid läsa källan.
Kan man göra samma sak med mötesinspelningar?
Det är ett separat flöde, med talarseparering via speaker diarization och en annan sammanfattningsstruktur. Men grundprincipen är den samma.