Het idee achter het gebruik van spraakherkenning is om beschrijvingen (metadata) te genereren op basis van het gesproken woord in het materiaal. Hoewel zeker niet de enige bron van informatie, kan naar tekst omgezette spraak een bruikbare beeld geven van de inhoud van een video. Een interessant voordeel van de inzet van spraaktechnologie is dat elk herkend woord automatisch een tijdcode meekrijgt zodat precies bekend is waar het woord werd uitgesproken. Hierdoor wordt het mogelijk om tijdens het zoekproces te verwijzen naar fragmenten binnen documenten wat het vinden van een interessant stukje video voor gebruikers een stuk eenvoudiger maakt.
Daarbij is het natuurlijk een groot voordeel dat met behulp van automatische technieken grote hoeveelheden data met relatief weinig inspanning verwerkt kunnen worden. Materiaal dat vanwege kostenoverwegingen niet of beperkt in aanmerking komt om handmatig beschreven te worden, kan met behulp van deze technologie toch worden voorzien van een meer gedetailleerde beschrijving. Maar ook voor materiaal dat wel uitgebreider wordt beschreven kunnen spraaktranscripties nuttig zijn: ofwel als extra metadata naast een handmatige beschrijving, ofwel als hulpmiddel tijdens het beschrijven. Op deze laatste vorm zal verderop nog uitgebreider worden ingegaan.
Tegelijkertijd wordt in het project onderzocht hoe ondertiteling (888) gebruikt zou kunnen worden als vorm van beschrijving van televisieuitzendingen. Het gebruik van ondertitels lijkt op spraakherkenning in die zin dat het in beide gevallen gaat om tijdgelabelde "representaties" van de spraak in het AV materiaal. Hoewel ondertitels geen exacte vertaling zijn van het gesproken woord maar meer een samenvatting, zullen toch de meest informatieve woorden er wel in zitten. Gekoppeld aan tijdlabels (van elke ondertitel is bekend op welk tijdstip het in beeld verschijnt) kunnen ondertitels daarom een nuttige bron voor het zoeken opleveren.
Toepassingen
Door spraak als metadata vast te leggen wordt archiefmateriaal beter toegankelijk en ontstaan er nieuwe mogelijkheden voor hergebruik. Neem bijvoorbeeld quotes in radiomateriaal die nieuwswaardig of op een andere manier interessant kunnen zijn om naar te verwijzen in andere media. Met de huidige middelen ligt het niet voor de hand om in een achtergrondartikel in de krant te verwijzen naar een bepaalde uitspraak in een radioprogramma. Via spraakgebaseerde metadata kan een quote makkelijker worden teruggevonden en wellicht ook direct naar worden gerefereerd in een krantenartikel. Er wordt door menigeen met belangstelling gekeken naar dit en andersoortige toepassingen waarbij fragmenten binnen en buiten het archief (cross-mediaal) met elkaar worden verbonden.
Spraaktranscripties kunnen ook gebruikt worden als hulpmiddel tijdens het handmatig ontsluiten van materiaal. Eén mogelijke vorm hiervan werd al getest in het CATCH Project CHOICE dat ten dele bij Beeld en Geluid werd uitgevoerd. In dit project werden naast verzamelde informatie van het Internet ook spraaktranscripties gebruikt om suggesties te doen aan de documentalist over welke thesaurustermen relevant zouden kunnen zijn voor het materiaal dat ze willen beschrijven. In een wat uitgebreidere vorm kunnen spraaktranscripties gebruikt worden om volautomatisch uit diverse bronnen (Internet, kranten) relevante informatie te verzamelen en die op een overzichtelijke manier te presenteren aan een documentalist die vervolgens de 'eindredactie' doet en het archiefstuk in de juiste context plaatst.
Kwaliteit
Een belangrijk criterium voor de bruikbaarheid van spraaktranscripties als vorm van metadata, is de kwaliteit van de spraakherkenning: hoe goed wordt de spraak herkend. Een veelgehoorde klacht over spraakherkenning is dat het gewoonweg niet goed werkt. Soms is die klacht terecht, soms niet. Het lastige met het spraaksignaal is dat het aan nogal wat variatie onderhevig is. Sprekers onderling verschillen al enorm in hoe ze spreken --denk aan leeftijd, geslacht, achtergrond, etc.-- maar ook de omstandigheden waarin mensen spreken heeft veel invloed op hoe spraak er voor een computer "uit ziet". Denk bijvoorbeeld aan het verschil tussen de voorgelezen, duidelijk gearticuleerde spraak van een nieuwslezer en de spontane, vrije spraak van mensen die een hooglopende discussie voeren in een praatprogramma. Ook de invloed van de omgeving op het spraaksignaal --vergelijk bijvoorbeeld een studio-opname met een opname 'live' op locatie met achtergrondlawaai-- draagt weer bij aan de variatie.
De kwaliteit van een spraakherkenner is voor een groot deel afhankelijk van de mate waarin de herkenner om kan gaan met deze al deze variatie. Het uitgangspunt is dat een herkenner deze variatie moet leren met behulp van voorbeelddata: honderden uren aan audio met een nauwkeurige beschrijving van wat er gezegd wordt. Door op een complexe manier statistieken bij te houden over de verschillende verschijningsvormen van klanken in de voorbeelddata, kan elke nieuwe uitspraak van een klank met een bepaalde waarschijnlijkheid worden gekoppeld aan de geleerde klanken. De geleerde klanken bij elkaar wordt wel het akoestisch model van een spraakherkenner genoemd. In spraakherkenningjargon wordt het leren van de klanken aangeduid als het trainen van het akoestische model.
Om van de klanken woorden te maken is een koppeling van klanken naar woorden nodig, door middel van een uitspraakwoordenboek, en een zogenaamd taalmodel. Het taalmodel bevat allereerst alle woorden die een herkenner kan herkennen, met daarbij informatie over de waarschijnlijkheid dat een woord werd uitgesproken gegeven de woorden die hieraan voorafgingen. Wanneer bijvoorbeeld "Ajax voetbalde" werd gezegd, is het veel minder waarschijnlijk dat het woord "gloed" hierop volgde dan het woord "goed". Mocht er op basis van de klanken dus twijfel bestaan over welk woord daadwerkelijk werd uitgesproken kan het taalmodel uitkomst bieden. Een taalmodel wordt net als een akoestisch model getraind op basis van voorbeeldmateriaal, in dit geval teksten. Omdat er ook weer grote hoeveelheden van nodig zijn wordt hiervoor ten dele krantenmateriaal gebruikt waar wat makkelijker in grote hoeveelheden en digitaal aan is te komen.
Bij het verzamelen van voorbeelddata is enerzijds de kwantiteit van belang: hoe meer hoe beter. Aan de andere kant moet de verzamelde data zo goed mogelijk passen bij de spraak die in de praktijk herkend moet gaan worden. Als de herkenner oudere mensen moet gaan herkennen heeft het niet zoveel zin om spraak van kinderen als voorbeeld te nemen. In de praktijk zal een herkenner vaak getraind zijn op zeer grote hoeveelheden gevarieerde spraak (denk aan honderden uren) en worden bijgetraind met een kleinere hoeveelheid spraak (enkele tot tiental uren) dat zoveel mogelijk lijkt op de spraak die het moet gaan herkennen. Wanneer je een herkenner loslaat op data die in niets lijkt op de voorbeelden die het tijdens de trainingsfase heeft gezien, zal het resultaat niet optimaal zijn.
Wanneer spraakherkenning wordt ingezet in een audiovisueel archief moet dus goed gekeken worden naar de kenmerken van de collecties die voor deze vorm van automatische metadatering in aanmerking komen. De variatie in typen spraak, context (omgevingslawaai of achtergrondmuziek), en opnamekwaliteit (historisch materiaal) in een archief zoals te vinden bij Beeld en Geluid zijn dusdanig divers dat het onmogelijk is om een herkenner te bouwen die het op elke collectie goed doet. Er zullen daarom op basis van de kenmerken van het materiaal enerzijds en de te verwachten aanpassingen die nodig zijn om een bepaalde kwaliteit te garanderen anderzijds, keuzes moeten worden gemaakt voor welke collecties de technologie gaat worden ingezet.
Bruikbaarheid
De vraag die zich dan opdringt is natuurlijk hoe goed die spraakherkenning dan moet zijn om nuttig te zijn als metadata? Gelukkig hoeft die niet perfect te zijn. Weliswaar wordt de kwaliteit van een herkenner meestal gemeten door het aantal gemaakte fouten (verkeerde woord herkend, een woord onterecht ingevoegd, een woord onterecht weggelaten) af te zetten tegen het totaal aantal woorden -- de zogenaamde word error rate -- maar dat is eigenlijk geen goede maat voor de bruikbaarheid van de herkenning als metadata. Voor het zoeken is het namelijk helemaal niet zo erg als de onbelangrijke woorden ('de', 'het', 'dat', 'als' , etc ) niet goed worden herkend. Als de belangrijke woorden (inhoudswoorden) maar goed worden herkend. Een groot voordeel is dat spraakherkenners door de bank genomen beter overweg kunnen met de doorgaans langere inhoudswoorden dan met de kortere functiewoorden. In langere woorden zit namelijk meer akoestische informatie waardoor ze makkelijker zijn te herkennen.
Onderzoek heeft uitgewezen dat wanneer een spraakherkenner slechts de helft van de woorden goed herkent, de resultaten prima bruikbaar kunnen zijn als bron om in te zoeken. Bedenk hierbij dat het gebrek aan andere vormen van metadata de doorslag kan geven om relatief slechte spraakherkenningsresultaten toch te accepteren: zonder spraakherkenning was het wellicht helemaal niet mogelijk om in de data te zoeken.
Natuurlijk zijn er wel grenzen aan de bruikbaarheid van beschrijvingen vol fouten. Elk fout herkend woord kan immers zorgen voor twee soorten zoekfouten. Stel het woord 'Rotterdam' wordt niet goed herkend: In plaats van 'Rotterdam" wordt 'Amsterdam' herkend. In dat geval zal wanneer 'Rotterdam' gezocht wordt, het videofragment waar 'Rotterdam' wel voorkomt niet gevonden worden (een miss). Daarnaast zal wanneer 'Amsterdam' gezocht wordt, het videofragment waarin het over 'Rotterdam' gaat onterecht worden opgeleverd als relevant (een false alarm). Het gebruik van spraakherkenning binnen een archief zal dus altijd gekoppeld moeten worden aan verschillende vormen van kwaliteitscontrole. Het ligt voor de hand dat de mate van bruikbaarheid van transcripties voor elke collectie afzonderlijk zal moeten worden beoordeeld.
Hoewel diverse testen in het kader van wetenschappelijk onderzoek de bruikbaarheid van de technologie voor afzonderlijke collecties al wel hebben aangetoond (zie hieronder voor enkele voorbeelden), valt er nog een hoop te testen en te ontwikkelen. Want laten zien dat iets werkt in een onderzoekslaboratorium is één ding, het ook op een bruikbare manier inzetten binnen een complexe work-flow zoals bij Beeld en Geluid is iets anders. Vandaar dat nieuwe technologie zoals spraakherkenning eerst uitvoerig wordt getest.
Demonstraties gebruik spraakherkenning in context AV archieven:
Zoeken in NOS 8 uur journaal
Deze demo laat zien hoe je met behulp van ondertiteling of spraakherkenning op onderwerp kunt zoeken in het NOS 8 uur journaal van gisteravond. Deze demo is door de Universiteit Twente gebouwd in 2005 in het kader van het Nederlands onderzoeksproject MultimediaN. De gebruikte spraakherkenner dateert uit die periode en is sindsdien niet meer aangepast. Vandaar dat nieuwe termen (bijvoorbeeld huidige politici) vaak niet goed worden herkend. Via ondertiteling gaat dit natuurlijk wel goed. De demo geeft een mooi beeld van hoe goed en fout het kan gaan. Radio Oranje
Deze demo laat zien dat met behulp van relatief simpele middelen een mooie multimediale presentatie kan worden gemaakt. Audio en teksten van speeches van Koningin Wilhelmina tijdens WOII, aangevuld met foto's uit een fotodatabase, zijn met behulp van spraak- en zoektechnologie aan elkaar gekoppeld waardoor je kunt zoeken in het materiaal en bij het afspelen mee kunt lezen waarbij de foto's zorgen voor wat extra dynamiek. Deze demo werd gebouwd in het kader van het CATCH project CHoral.





