De afgelopen tien jaar is voicepicking gemeengoed geworden in de Nederlandse warehouses. Tot nu toe gebruikten bedrijven daarvoor meestal spraakafhankelijke systemen die voor gebruik getraind moesten worden. Daar komt nu verandering in. De afgelopen twee jaar zijn nieuwe spraakonafhankelijke systemen verschenen die geen training vereisen. Zijn die systemen nu al goed genoeg voor het warehouse?

Het spraakonafhankelijke systeem van Vocollect hoeft geen rekening te houden met dialecten
In de markt voor logistieke spraakgestuurde oplossingen tekent zich steeds meer een strijd af tussen twee kampen met verschillende technologieën. Het ene kamp wordt gedomineerd door Vocollect, dat meer dan de helft van de markt in handen heeft. Het andere kamp bestaat uit een aantal kleine, soms nieuwe spelers die beweren de technologie voor de toekomst in huis te hebben. Om het onderscheid tussen de twee verschillende technologieën aan te geven zijn verschillende benamingen in omloop: spraakafhankelijk versus spraakonafhankelijk, taalonafhankelijk versus taalafhankelijk, getraind versus ongetraind, stemherkenning versus spraakherkenning.
Het verschil tussen de technologieën wordt het duidelijkst zichtbaar op het moment dat een gebruiker voor de allereerste keer aan de slag gaat. Het spraakafhankelijke systeem zoals Vocollect dat levert, dient eerst getraind te worden. Dat betekent dat een nieuwe gebruiker eerst alle commando’s een paar keer moeten inspreken voordat hij aan de slag kan. Met het spraakonafhankelijk systeem van de nieuwkomers op de markt is die training niet meer nodig.
Hees of verkouden
In de praktijk blijkt die noodzakelijke training toch maar lastig te zijn. “Het kost tijd, en zeker in warehouses met een groot verloop verlies je veel tijd daardoor”, vertelt Rogier Martens, senior product development van Audora, een nieuw bedrijf dat halverwege dit jaar een eigen spraakonafhankelijk systeem op de markt heeft gebracht. “Denk eens aan grote logistiek dienstverleners die in drie ploegen werken. Meestal heb je toch weer een ploegleider nodig die uitleg geeft en kijkt of commando’s goed zijn ingesproken”, vertelt Marcel Kars, senior vice-president central Europe bij Zetes, een system integrator die zowel spraakafhankelijke als spraakonafhankelijke oplossingen implementeert.
Bovendien is een training ook maar een momentopname. Na verloop van tijd gebeurt het vaak dat ingesproken commando’s steeds minder goed matchen met de vastgelegde commando’s. Een reden is dat gebruikers tijdens de training de neiging hebben om geforceerd te spreken. Ze spreken wat langzamer en articuleren wat duidelijker dan daarna als het werken met een headset eenmaal routine is geworden. “Daarnaast zijn gebruikers wel eens hees of verkouden. Dan kloppen ze bij hun teamleider aan met de mededeling dat ze niet door hun dialoog heen komen. Vaak moet het systeem dan eerst weer opnieuw getraind worden”, stelt Martens.
Bovendien blijft de noodzaak om te trainen toch een beetje vreemd, vindt Kars. “Als je een handterminal oppakt, hoef je toch ook niet eerst alle toetsen drie keer in te drukken?”
300.000 woorden

Audora heeft een spraakonafhankelijk systeem ontwikkeld op basis van de speech engine Nuance, die ook in iPhones wordt gebruikt
Vocollect beaamt dat trainen tijd kost, maar geeft aan dat deze tijdsinvestering zichzelf terugverdient. Het gaat in warehouses maar om een klein aantal commando’s die relevant zijn. “Trainen kost misschien 15 tot 20 minuten, maar daarna werkt het systeem ook direct goed. Bovendien moet je nieuwe medewerkers sowieso inwerken”, vertelt Darrel Williams, regional manager Northern Europe van Vocollect. “Daarnaast hoeven we geen rekening te houden met dialecten. Mensen kunnen commando’s inspreken in een andere taal dan de taal die het systeem gebruikt. Ze kunnen zelfs woorden verzinnen, zolang ze altijd maar dezelfde woorden gebruiken.”
Volgens Williams is een spraakafhankelijk systeem nog altijd nauwkeuriger dan een spraakonafhankelijk systeem, zeker in de lawaaiige omgeving van het warehouse. “In een spraakonafhankelijk systeem zitten 250.000 tot 300.000 woorden die allemaal moeten worden herkend. De kans op een fout is dus groter”, vertelt Williams, die daarbij verwijst naar een eigen onderzoek uit 2010 tussen spraakafhankelijke en spraakonafhankelijke systemen. Daarbij is het aantal fouten gemeten dat het systeem maakt per honderd ingesproken woorden. Spraakafhankelijke systemen scoorden een paar procent beter dan spraakonafhankelijke systemen. Bij gebruikers met een accent loopt dat percentage snel op, aldus Vocollect. “Stel dat het 3,5 seconden kost om een fout te corrigeren door het woord te herhalen. Dan kunnen de kosten per medewerker per jaar oplopen tot 300 euro voor elk procent verschil”, vertelt Williams.
Opvallend is dat zowel spraakafhankelijke als spraakonafhankelijke systemen allebei dezelfde techniek toepassen om hun prestaties te verbeteren: adaptation. Tijdens het gebruik worden steeds opnieuw stemkarakteristieken vastgelegd om de kans op herkenning te vergroten. Ook in het spraakafhankelijke systeem van Vocollect wordt het stemprofiel op die manier voortdurend aangepast.
Black box
Zetes implementeert al jaren het spraakafhankelijke systeem van Vocollect, maar biedt sinds twee jaar ook een alternatief in de vorm van MCL Voice. Dit is een spraakonafhankelijk systeem van MCL Technologies, een dochterbedrijf van Zetes Industries. Sinds twee jaar wordt dit systeem actief in de markt gezet, wat tot nu toe heeft geleid tot zo’n dertig installaties. “Vocollect was aanvankelijk de enige speler van belang op dit terrein. Als system integrator willen we onze klanten echter graag keus bieden en ons niet aan één partij binden. Dat is niet goed voor ons en niet voor onze klanten. Daarom hebben we MCL gevraagd een eigen systeem te ontwikkelen”, legt Kars uit.
Audora is ontstaan na eerdere ervaringen met het spraakonafhankelijke systeem van het Duitse Topsystem. Het Nederlandse Audora ontwikkelde een geheel eigen filosofie en technologie, die na een ontwikkeltraject van vier jaar leidde tot het systeem dat nu wordt geleverd door de partners Inther en Dataction. “Vaak is een voice-systeem een black box, waarvan het onduidelijk is wat daarbinnen gebeurt. Dat brengt ook beperkingen met zich mee op het gebied van beheer en onderhoud”, vertelt Martens. Het systeem van Audora is database-georiënteerd, wat betekent dat het systeem constant in verbinding staat met beheertools. Als een gebruiker de speaker harder wil zetten of van taal wil switchen, kan dat nu zonder opnieuw te hoeven inloggen.
Nuance
Zowel MCL als Audora maken gebruik van de speech engine van Nuance, het hart van deze spraakonafhankelijke systemen dat ook wordt gebruikt in de nieuwste iPhone. Ook Vocollect heeft een spraakonafhankelijk systeem op basis van Nuance ontwikkeld, maar dit systeem AccuNurse wordt alleen in de zorgsector gebruikt. “In deze sector is een grotere woordenschat nodig dan in de logistiek. Bovendien is het minder belangrijk om elk woord direct goed te herkennen en een responstijd van milliseconden te hebben. In een warehouse is een spraakafhankelijk systeem nog altijd de beste optie”, vertelt Williams.
Dat spraakafhankelijke systemen in het verleden de beste optie vormden, beamen alle partijen. Volgens Audora hebben spraakonafhankelijke systemen de achterstand echter snel ingehaald en zijn ze nu al beter, ook in het warehouse. “Nu we zelf een nieuwe oplossing op basis van Nuance hebben ontwikkeld, zien we significante verbeteringen”, vertelt Martens.
Zetes is wat voorzichtiger. “Op dit moment is in een warehouse met maar twintig of dertig commando’s weinig verschil tussen beide oplossingen. Dan worden andere aspecten belangrijk, zoals kwaliteit van de hardware en de kosten”, aldus Kars. “Ik denk dat het nog wel tien jaar duurt voordat we in een warehouse meer spraakonafhankelijke dan spraakafhankelijke systemen tegenkomen.”
Spraakafhankelijk of -onafhankelijk
De wijze waarop spraakafhankelijk en spraakonafhankelijke systemen werken, is wezenlijk verschillend. Bij een spraakafhankelijk systeem is training noodzakelijk om een stemprofiel van de gebruiker aan te leggen. Het systeem slaat een profiel van elk ingesproken commando op in de database. Elke keer als de gebruiker tijdens het werk een commando inspreekt, worden de uitgesproken woorden vergeleken met het opgeslagen profiel. Als er een match is, accepteert het systeem het commando.
In een spraakonafhankelijk systeem is het profiel van een complete taal alvast vastgelegd. Een dergelijk systeem kijkt naar de overeenkomsten in de profielen van ingesproken commando’s zonder rekening te houden met de stemkarakteristieken. Het maakt dan niet meer uit of een woord nu door een vrouw met een heldere hoge stem of door een man met een hese lage stem is ingesproken, het systeem let alleen op de overeenkomsten in de profielen.
In plaats van op zoek te gaan naar een perfecte match zoals bij spraakafhankelijke systemen, maakt een spraakonafhankelijk systeem gebruik van kansberekening. Door middel van speciale algoritmes berekent het systeem de kans dat het profiel van een nieuw ingesproken woord past bij het profiel van een van de vele vastgelegde woorden. Het woord dat het beste past, wordt geaccepteerd.
Hardware-afhankelijk of -onafhankelijk

“Hardwarefabrikanten moeten wat beter hun best doen om terminals te ontwikkelen die geoptimaliseerd zijn voor voice”
Parallel aan de discussie tussen spraakafhankelijke en spraakonafhankelijke systemen speelt een andere discussie: die tussen hardware-afhankelijke en hardware-onafhankelijke systemen. Vocollect brengt al jaren een eigen terminal op de markt die speciaal is ontwikkeld voor voice: de Talkman. “Toen we begonnen waren er geen terminals die goed genoeg waren. Daarom zijn we er zelf één gaan maken die comfortabel is om aan de broekband te dragen en die een goede geluidskaart bevat”, vertelt Darrel Williams van Vocollect, die eraan toevoegt dat ook de oplossing van Vocollect in principe op andere terminals kan draaien.
Audora is principieel tegen een hardware-afhankelijke oplossing. “Er zijn partijen die goed zijn in software en er zijn partijen die goed zijn in hardware. Als je allebei doet, kan nooit alles even goed zijn. Een hardware-specialist blijft doorontwikkelen en elk jaar weer verbeterde versies op de markt brengen”, vindt Rogier Martens van Audora. Voordeel van een hardware-onafhankelijke oplossing is dat bedrijven met barcodescanners die apparaten eventueel kunnen hergebruiken. “Daarnaast kan het soms handig zijn om verschillende technieken te combineren”, vertelt Martens.
Ook MCL Voice is hardware-onafhankelijk. “Maar dat betekent dat fabrikanten als Motorola of LXE wel wat beter hun best moeten doen om terminals te ontwikkelen die geoptimaliseerd zijn voor voice”, aldus Marcel Kars van Zetes. Dergelijke fabrikanten hebben eerder terminals op de markt gebracht die zijn aangepast voor voice, maar die kenden vaak een zwakke plek. Dan was de headset niet goed genoeg, ging de aansluiting loszitten of was gewoon de processor te langzaam. Kars houdt daarom een warm pleidooi voor verdere investeringen van hardware-fabrikanten.
Een interessante ontwikkeling is dat Vocollect begin 2011 is overgenomen door hardware-fabrikant Intermec. Williams: “Dat toont aan dat Intermec herkent dat voice een belangrijke ontwikkeling is.”



