Ljudbok med robot
I det här blogginlägget går jag igenom hur det till slut blev en ljudbok av min första bok Den tredje delningen, med hjälp av en AI-röst.
Bild på tjej som lyssnar på ljudbok i sina hörlurar - bilden genererad med AI bildgenerator.
Min första bok - Den tredje delningen - kom ut sommaren 2021. Den gavs ut som tryckt bok och som eBok i digitalt ePub-format. Ljudbok var inget jag prioriterade men i bakhuvudet fanns idén att jag ville prata in ljudboken själv. Det fanns flera skäl till det, dels att det är många faktatermer i mina böcker som det är viktigt att få till rätt och dels att jag tänkte att jag själv läser den bäst, eftersom jag vet "hur den ska vara".
Sagt och gjort. Något år senare läser jag under mycket möda in hela boken, men det blev inte bra. Det fanns flera anledningar till detta - tidsbrist, stress, för snabbt tempo i inläsningen, för många fel i inläsningen och fel dialekt. Fel, fel, fel, fel, helt enkelt.
Till slut släppte jag idén om ljudbok med min egen inläsning, framförallt efter att ha hört en AI-röst läsa upp min bok, i ett hjälpmedel för de som av olika anledningar har läs-svårigheter. Detta gav en impuls att istället testa att låta en AI-röst läsa in boken.
Jag letade runt lite på internet och provade ett tiotal olika tjänster med AI-röster. Det finns flera olika sådana tjänster men de allra flesta är väldigt enkla - alltför enkla för att göra en ljudbok. Den tjänst man väljer ska minst ha:
En bra grundröst som klarar att läsa upp det mesta av en text utan problem. Detta är inte självklart, eftersom AI-röster är ny teknik och många av de röster som AI-tjänsterna har är alltför omogna för att gå att använda. De låter helt enkelt för mycket som en robot eller läser orden och meningarna fel. Därför är det viktigt att prova AI-rösten noga innan man bestämmer sig.
Tjänsten bör också ha ett bra sätt att spara textstycken uppdelade i kapitel och helst även böcker. Det vill säga text-stycken ska kunna sparas och grupperas i minst två nivåer.
Viktigt är att tjänsten stöder så kallad SSML - Speech Synthesis Markup Language. Lät det krångligt? Jo, men varje dag använder du dig säkert av sidor skrivna med HTML - HyperText Markup Language - det vill säga vanliga websidor. HTML styr om texten ska vara i fetstil, kursiv, hur stor texten ska vara (fontstorlek), färg på texten, m.m. Med SSML kan du istället styra AI-rösten, t.ex. ändra tonläget på ett ord, ändra hur hårt eller mjukt ett ord betonas och dessutom på ett enkelt sätt lägga in pauser i uppläsningen. Dessa tre saker är jätteviktigt att kunna redigera.
En annan sak som underlättar är om AI-tjänsten kan editera fonetik för utvalda ord. På det sättet kan du rätta ord som AI-rösten säger fel, vilket är viktigt eftersom AI-rösten nästan helt säkert inte kommer att klara att uttala alla ord du vill att den ska säga på ett korrekt sätt.
Hur är det då att låta en AI-röst läsa in en ljudbok? Jo du kan vara helt säker på att AI-rösten kommer att göra fel. I de flesta meningar är det helt acceptabelt uppläst svenska, men ibland blir det fel antingen på melodi, betoning eller uttal. Att svenska är ett klurigt, för att inte säga svårt språk, är något man snabbt inser.
Vad är till exempel skillnaden på "kort" och "kort"? Ja, för AI:n är det ingen skillnad, men för oss människor är det stor skillnad på ett fotograferat kort och att berätta att längden var kort... Man måste alltså vara beredd på att guida AI:n att uttala varje ord rätt. Ett sätt att lösa det är att ersätta ordet mot en annan stavning som bättre motsvarar hur ordet faktiskt uttalas. "Det var en kårrt person" kommer AI:n antagligen att uttala rätt.
På samma sätt måste ord som AI:n inte lärt sig ännu, skrivas om så att uttalet blir rätt. Antingen med omskrivning enligt ovan (d.v.s. med annan stavning av ordet så att det "låter" rätt) eller med fonetisk skrift.
Jobbigast var utan tvekan att ändra på melodi och betoning, på meningar som AI:n inte lyckades säga på ett bra sätt. Sådant som är självklart för oss människor när vi säger det är inte lika självklart att koda i hur AI:n ska ändra tonhöjd eller betoning på olika ord.
En annan mycket irriterande "feature" var när vissa ord uttalades helt fel av AI:n, eftersom något ljushuvud fått för sig att lära AI:n att uttala ord på ett visst sätt. Det märkligaste exemplet på det var ordet "kniv" (som i kökskniv). AI:n hade blivit upplärd att ordet "kniv" skulle uttalas som "knop i veckan". Varför AI:n tolkade ordet "kniv" så tokigt har jag ingen aning. Antagligen någon snedseglande författares fel, men vem vet? Lite komiskt var det dock...
Det är alltså inte bara att klippa in bokens text och låta AI:n läsa upp den, långtifrån. Varje kapitel tog cirka en till tre timmar att lyssna och redigera, tills det blev hyfsat bra. Jag skriver "hyfsat"eftersom man så klart kan hålla på hur länge som helst och slipa på SSML-kodningen med mera, men nånstans måste man ge sig.
Hur blev då resultatet? Helt klart mycket bättre än min egen inläsning. Å andra sidan är det helt säkert sämre än en professionell inläsares uppläsning men ändå förvånansvärt bra. I 90% av meningarna vågar jag påstå att det är nästan omöjligt att lista ut att det är en AI-röst. För resterande 10% kanske det går att höra att det är en AI på grund av lite avvikande betoning eller meningsmelodi, eller i något enstaka fall där AI-rösten faktiskt under någon mikrosekund "glitchar" till i ett digitalt brus.
Vad är då fördelen med att använda en AI-röst som inläsare av en ljudbok? Tidsmässigt är det inte någon vinst, i jämförelse med en professionell inläsare. Tvärtom tar det nog längre tid, ungefär 50% längre skulle jag gissa.
Den stora fördelen däremot är repeterbarheten och automatiseringen. Vad menar jag med det? Jo att AI:n är förutsägbar och delvis programmerbar. AI:n läser det som står och gör i princip så som du har skrivit och kodat i SSML. Har du lagt in en två-sekunders paus, så kommer AI:n att pausa i två sekunder. En annan stor fördel är att det går att jobba med en AI-röst var som helst och när som helst. Man är inte styrd av att ha helt tyst runtomkring sig och du kan avbryta och återuppta arbetet när som helst - AI:ns röst är alltid densamma. Detta till skillnad mot oss människor vars röster ändrar sig - den låter på ett sätt när du stiger upp till frukost men låter annorlunda när det blir kväll eller veckan efter. Ett kapitel måste alltså med en mänsklig inläsare spelas in i en följd vid samma tillfälle. En AI har inga sådana problem.
En annan stor fördel är att det är väldigt lätt att rätta fel som upptäcks vid korr-lyssning av ljudboken. Ändra i filen som AI:n läser upp ifrån och felet blir förhoppningsvis genast rättat.
Vad tycker jag då sammanfattat, efter att ha gjort en ljudbok med hjälp av AI? Jo det är mycket jobb, många arbetstimmar, men det är bara att traggla på, hur trött man än är. AI:n är nämligen alltid lika pigg på att jobba och prata (däremot somnar kanske man själv efter många timmars lyssnande...). Resultatet blir helt ok och definitivt bättre än min egen inläsning.
Mina andra böcker kommer jag att göra med AI, på samma sätt. Troligen kommer det att gå lite snabbare, eftersom jag nu har mer erfarenhet av hur det funkar. Förhoppningsvis blir också den AI-röst som jag använder bättre med tiden, så att det blir mindre redigeringsjobb.
En framtidsspaning är att vi bara är i början av den här utvecklingen. AI-rösterna kommer att bli smartare och lära sig att läsa på ett alltmer mänskligt sätt, det vill säga läsa in känslor i texten så att den betonar och melodierar texten på ett mer mänskligt sätt.
På verktygsfronten tror jag att det kommer att hända massor. Dagens AI-tjänster för AI-röster är oerhört rudimentära. Som "IT-expert" jämför jag gärna med när webben började sitt intåg runtom i världen. På den tiden kodade man oftast HTML med en text-editor, ungefär på samma sätt som jag var tvungen att koda SSML i bok-texten. Snart ersattes dock detta av HTML-editorer, som med tiden gjorde det allt enklare att skapa snygga "hemsidor". På samma sätt tror jag att det kommer att bli enklare att editera AI-rösten, genom att i texten t.ex. fet-markera vissa ord eller delar av ord för att få mer betoning och vice versa för att få mindre betoning. Troligen kommer någon form av tonläges-justering, troligen genom att ordet på textraden flyttas uppåt eller nedåt (jämför med noter i musiken). Kanske kommer man även kunna färgkoda texten för att tala om för AI-rösten om den ska vara glad, arg, ledsen, osv. Kanske röd för arg, blå för ledsen, gul för glad och svart för sur - vem vet? Det enda vi vet är som sagt att det kommer att hända massor inom det här området de närmaste åren.
Kommentarer
Skicka en kommentar