Spennende løsninger som kombinerer lyd og artifisiell intelligens


Stemmestyring og artifisiell intelligens er to trender som allerede spiller en stor rolle i hverdagen vår og som kommer å bli enda viktigere i fremtiden. For noen år siden var det mange som var skeptiske til fokuset på digitale assistenter som Google Assistant og Alexa, men nå begynner disse løsningene virkelig å levere verdi til brukerne.

Hva kan du bruke AI til i forbindelse med lyd?

En forutsetning for at systemer som baserer seg på stemmestyring skal fungere, er selvfølgelig at datamaskinen klarer å forstå hva brukeren sier. Det er her artifisiell intelligens spiller en stor rolle, og i særlig stor grad maskinlæring som trener systemer slik at de kan forstå ulike stemmer. Det finnes mange spennende løsninger som bygger videre på dette:

-Løsninger som fjerner bakgrunnsstøy. I mange situasjoner lager bakgrunnsstøy utfordringer for telefonsamtaler, videokonferanser og opptak. Støyreduserende hodetelefoner er gammelt nytt, og det er en relativ enkel logikk som gjør at støy fjernes i slike løsninger. En mikrofon tar opp bakgrunnslyder, deretter genereres det en tilsvarende lyd som fjerner støy. Dette er likevel ikke noen løsning hvis du vil fjerne bare deler av lyden. Systemer som Krisp fjerner helt enkelt alle lyder som ikke er en menneskelig stemme.

-Smartrecord er et eksempel på en app som kan transkribere, det vil si gjøre om lyd til tekst. Det kan være svært praktisk også for vanlige forbrukere. Resultatet blir vanligvis ikke helt perfekt, i hvert fall ikke på norsk, men det kan være et godt utgangspunkt. Bruksområder kan være dokumentasjon av forelesninger og lignende.

-SpeechKit er en løsning for selskaper som skal gjøre om tekst til tale. Dette er et område der utviklingen har kommet lenger enn tale til tekst, men fortsatt høres for eksempel Google Assistant og Alexa ikke helt naturlige ut. For selskaper som ønsker å bruke tekst til tale er det definitivt en fordel å bruke en eksisterende løsning.

Morsomme apper som lar deg lage musikk

Det finnes også en rekke apper som bruker stemmegjenkjenning og artifisiell intelligens for å faktisk lage musikk, eller hjelpe deg med andre ting i forbindelse med musikk.

-Humtap er en app som tar opp lyden av deg som improviserer noe som ligner på musikk, det er nok at du nynner og lager noen trommelyder. Basert på dette lover Humtap at du skal få sanger som høres ut som de er laget i et profesjonelt studio. Det høres kanskje for bra ut for å være sant, men det kan være verdt et forsøk.

-Soundhound er bare et eksempel på mange ulike løsninger for å identifisere sanger. Dette er en teknologi som har fungert godt relativt lenge, og så lenge opptaket er godt er det relativt uproblematisk å sammenligne det med eksisterende data om sanger og artister. Du trenger selvfølgelig ekstrem tilgjengelig kapasitet, både i form av lagring og prosessorer, men hvis du har et stort datasenter går det fint å sammenligne sanger.

-Å kunne bruke stemme for å  interagere med systemer har mange fordeler. Mennesker snakker mye raskere enn hva vi skriver og når vi kan stole på at et system alltid tolker stemmen vår riktig finnes det egentlig ingen grunn til å bruke et tastatur for å overføre tekst.

Det er egentlig bare fantasien som setter begrensninger for hva denne teknologien kan brukes til, og Google har for eksempel mange spennende løsninger på vei ut på markedet. Som vanlig må nordmenn ofte vente litt, men i engelskspråklige land er det for eksempel mulig å la en stemmestyrt assistent svare på samtaler eller bestille bord på en restaurant.