| Starije izmjene na obje strane
Starija izmjena
Novija izmjena | Starija izmjena | 
                        
                | racfor_wiki:fdd:antiforenzika_glasa [2022/06/01 09:16] pilic [Antiforenzika glasa]
 | racfor_wiki:fdd:antiforenzika_glasa [2024/12/05 12:24] (trenutno) 
 | 
        
|  |  | 
|  |  | 
| ==== Descript ==== |  | 
|  | === Descript === | 
|  |  | 
| //[[https://www.descript.com|Descript]]// je alat za audio i video uređivanje. Jedan od ključnih elemenata //Descripta// je //Lyrebird AI//, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. //Lyrebird// na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za //text-to-speech// čitače i sl. | //[[https://www.descript.com|Descript]]// je alat za audio i video uređivanje. Jedan od ključnih elemenata //Descripta// je //Lyrebird AI//, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. //Lyrebird// na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za //text-to-speech// čitače i sl. //Lyrebird AI// može se isprobati u besplatnoj verziji alata //Descript// s limitom od tisuću riječi. Neograničeno korištenje moguće je u //Pro// verziji i cijena je 24 dolara mjesečno. | 
|  |  | 
| {{ https://46ba123xc93a357lc11tqhds-wpengine.netdna-ssl.com/wp-content/uploads/2019/09/descript-image-2.jpg?600x350 }} | {{ :racfor_wiki:fdd:descript.mp3 |}} | 
|  |  | 
| Slika 2. Descript [[https://voicebot.ai/2019/09/18/descript-acquires-lyrebird-and-lands-15-million-in- | Primjer 1. Klonirani glas Petre Ilić dobiven pomoću alata //Descript// | 
| funding-from-andreessen-horowitz-and-redpoint/|izvor]] |  | 
|  |  | 
| ==== Resemble AI ==== | === Resemble AI === | 
| //[[https://www.resemble.ai/|Resemble AI]]// je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću //text-to-speech// čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika. | //[[https://www.resemble.ai/|Resemble AI]]// je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću //text-to-speech// čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika. Kloniranje glasa pomoću alata //Resebmle AI// može se isprobati besplatno s limitom od 2000 riječi, odnosno oko dvije minute govora. Uzorci se moraju snimiti na //Resebmle AI// platformi. Za 30 dolara mjesečno moguće je generirati snimku govora duljine do dva sata. | 
|  |  | 
| [[https://www.youtube.com/watch?v=Y08OaZVfkYE&ab_channel=ResembleAI|How Voice Cloning Works (Resemble AI)]] | {{ :racfor_wiki:fdd:snimka1.ogg |}} | 
|  |  | 
| {{ https://www.visdee.com/wp-content/uploads/resemble-ai.jpg?600x350 }} | Primjer 2. Klonirani glas Petre Ilić dobiven pomoću alata //Resemble AI// | 
|  |  | 
| Slika 3. Resemble AI [[https://www.visdee.com/ai-dubbing-software/|izvor]] | {{ :racfor_wiki:fdd:saprjxqx.mp3 |}} | 
|  |  | 
| ==== Respeecher ==== | {{ :racfor_wiki:fdd:ldbgdset.mp3 |}} | 
| //[[https://www.respeecher.com/product?hsLang=en/|Respeecher]]// je, za razliku od prethodna dva, //speech-to-speech// alat. Prednost //speech-to-speech// konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. //Respeecher// koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl. |  | 
|  |  | 
| {{ https://www.youtube.com/watch?v=t5yw5cR79VA&ab_channel=respeecher?|Speaking in the voice of Obama (Voice cloning) }} | Primjer 3. Primjeri kloniranih glasova dostupnih na //Resemble AI// platformi | 
|  |  | 
| {{ https://miro.medium.com/max/1400/1*gh35fkmoplPDLBgtjoENnQ.png?600x330 }} | === Respeecher === | 
|  | //[[https://www.respeecher.com/product?hsLang=en/|Respeecher]]// je, za razliku od prethodna dva, //speech-to-speech// alat. Prednost //speech-to-speech// konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. //Respeecher// koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl. Cijena alata //Respeecher// je 200 dolara mjesečno. | 
|  |  | 
| Slika 4. Respeecher [[https://respeecher.medium.com/respeecher-explained-the-speech-synthesis-software-for-film-tv-creators-969f1e090bc6|izvor]] | [[ https://www.youtube.com/watch?v=t5yw5cR79VA&ab_channel=respeecher?|Speaking in the voice of Obama (Voice cloning) ]] | 
|  |  | 
| Primjeri kloniranih glasova generiranih pomoću alata //Respeecher//: \\ |  | 
| [[https://www.respeecher.com/voice-marketplace?hsLang=en|izvor]] |  | 
|  |  | 
| {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/deborah_d.wav }} | {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/deborah_d.wav }} | 
|  |  | 
| {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/alice_d.wav }} | {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/alice_d.wav }} | 
|  |  | 
|  | Primjer 4. Primjeri kloniranih glasova dostupnih na //Respeecher// platformi \\ | 
|  | [[https://www.respeecher.com/voice-marketplace?hsLang=en|izvor]] | 
|  |  | 
|  |  | 
|  | === Aktualni radovi iz područja antiforenzike glasa === | 
|  | \\ | 
|  | **[[https://ieeexplore.ieee.org/document/9246264?fbclid=IwAR1Xoil3ctFf_hvMyzYQVURtx0dhzUsysHLG_mQOmYHIv_quuVL7Yys8cXg | NAUTILUS: A Versatile Voice Cloning System]]** \\ | 
|  | U navedenom radu predstavljen je NAUTILUS - sustav sinteze govora koji može generirati iz tekstualnog ulaza ili iz audio zapisa proizvoljnog govornika. Posebnost sustava je treniranje enkodera i dekodera na skupu više govornika, čime se ostvaruje mogućnost kloniranja neviđenog glasa samo na temelju neoznačenog govora ciljanog govornika. | 
|  |  | 
|  | **[[https://ieeexplore.ieee.org/abstract/document/9239750?fbclid=IwAR3IkAJvJ_EOTR8juUbGflg2wMiSIO1FF014ffdnGtKdtcCEWXH_ZG3LrLw | Research on Voice Cloning with a Few Samples]]** \\ | 
|  | Za razliku od većine modela gdje je za kloniranje glasa potrebna velika računalna snaga, puno vremena i puno uzoraka, u ovom radu predstavljene su i testirane ideje kloniranja glasa temeljene na LPCNET modelu koji omogućuje kloniranje glasa na slabijem hardveru i na manjem broju uzoraka. | 
|  |  | 
|  | **[[https://ieeexplore.ieee.org/document/9373282?fbclid=IwAR0Nae5UDmjPBHPH4WBMkdbfOy0OHzef29H01q3CJiZsfNXlezyiZ5EGRQA | Multilingual Speech Synthesis for Voice Cloning]]** \\ | 
|  | U spomenutom radu naglasak je na probleme privatnosti i sigurnosti alata kloniranja glasa i glasovnih asistenata potpomognutim umjetnom inteligencijom. | 
|  |  | 
|  | **[[https://ieeexplore.ieee.org/document/8999436?fbclid=IwAR2ozVYe2YS_h_DHPHippRDca0GCxSWfcCZhX5WOmXRdsGSYh2uG2IDAIxk | Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?]]** \\ | 
|  | U radu je provedeno istraživanje koje provjerava pouzdanost sustava za automatsku verifikaciju govornika (ASV) na novim metodama sinteze baziranih na dubokim neuronskim mrežama. Autori u radu izražavaju zabrinutost jer projekti poput WaveNet, Deep Voice i Deep Loop uspijevaju generirati vrlo prirodne i kvalitetne glasove koji mogu klonirati identitet glasa. | 
|  |  | 
|  | **[[https://ieeexplore.ieee.org/document/9747319 | Cloning One’s Voice Using Very Limited Data in the Wild]]** \\ | 
|  | Problemi kojima se ovaj rad bavi su kloniranje glasa s ograničenom količinom podataka te kontrola stila i prozodije kloniranog glasa. Predstavljen je model Hieratron koji prozodiju i timbar modelira pomoću dva modula, što omogućava neovisnu kontrolu različitih karakteristika glasa. Hieratron za ograničenu količinu podataka daje bolje rezultate od tradicionalne metode u kojoj se karakteristike glasa modeliraju zajedno. | 
|  |  | 
|  | **[[https://ieeexplore.ieee.org/document/9771377 | Neural Fusion For Voice Cloning]]** \\ | 
|  | Uz ograničenu količinu podataka, teško je osigurati visoku kvalitetu i sličnost stvarnog i kloniranog glasa. U ovom radu predstavljena je arhitektura neuralne fuzije s ciljem rješavanja navedenog problema. Model neuralne fuzije sastoji se od tekstualnog kodera, akustičnog dekodera i referentnog kodera. Rezultati pokazuju da neuralna fuzija poboljšava sličnost stvarnog i kloniranog glasa. | 
|  |  | 
|  | **[[https://ieeexplore.ieee.org/document/9573848 | Emotional Speech Cloning using GANs]]** \\ | 
|  | Umjetno generiran govor često zvuči monotono. Ovaj radi bavi se problemom generiranja govora prožetog emocijama. Predstavljen je pristup u kojem se govor i emocije modeliraju kao dva različita entiteta. Prvi dio modela sadrži sintetizator glasa koji generira govor bez emocija koristeći što manje podataka. Izlaz se kombinira s nizom različitih emocija i predaje EmoGAN-u, modificiranoj verziji CycleGAN-a. Cilj je omogućiti dodavanje različitih emocija ovisno o kontekstu rečenice. | 
|  |  | 
| ===== Detekcija kloniranog glasa ===== | ===== Detekcija kloniranog glasa ===== | 
|  |  | 
| * dijarizacija govornika | * dijarizacija govornika | 
| * otkrivanje koja osoba trenutno govori u slučaju kada se u snimci često izmjenjuje nekoliko osoba | * otkrivanje koja osoba trenutno govori u slučaju kada se u snimci često izmjenjuje nekoliko osoba | 
| * {{ https://streamable.com/uef39?|Primjer dijarizacije govornika}} | * [[ https://streamable.com/uef39?|Primjer dijarizacije govornika]] | 
| * detekcija lažnog govora | * detekcija lažnog govora | 
| * provjera radi li se o legitimnoj ili lažnoj snimci usporedbom sličnosti potencijalno lažnog govora sa stvarnim govorom | * provjera radi li se o legitimnoj ili lažnoj snimci usporedbom sličnosti potencijalno lažnog govora sa stvarnim govorom | 
|  |  | 
| [7] [[https://github.com/resemble-ai/Resemblyzer]] | [7] [[https://github.com/resemble-ai/Resemblyzer]] | 
|  |  | 
|  | [8] [[https://ieeexplore.ieee.org/document/9246264?fbclid=IwAR1Xoil3ctFf_hvMyzYQVURtx0dhzUsysHLG_mQOmYHIv_quuVL7Yys8cXg|NAUTILUS: A Versatile Voice Cloning System]], 2020. | 
|  |  | 
|  | [9] [[https://ieeexplore.ieee.org/abstract/document/9239750?fbclid=IwAR3IkAJvJ_EOTR8juUbGflg2wMiSIO1FF014ffdnGtKdtcCEWXH_ZG3LrLw|Research on Voice Cloning with a Few Samples]], 2020. | 
|  |  | 
|  | [10] [[https://ieeexplore.ieee.org/document/9373282?fbclid=IwAR0Nae5UDmjPBHPH4WBMkdbfOy0OHzef29H01q3CJiZsfNXlezyiZ5EGRQA|Multilingual Speech Synthesis for Voice Cloning]], 2021. | 
|  |  | 
|  | [11] [[https://ieeexplore.ieee.org/document/8999436?fbclid=IwAR2ozVYe2YS_h_DHPHippRDca0GCxSWfcCZhX5WOmXRdsGSYh2uG2IDAIxk|Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?]], 2020. | 
|  |  | 
|  | [12] [[https://ieeexplore.ieee.org/document/9747319|Cloning One’s Voice Using Very Limited Data in the Wild]], 2022. | 
|  |  | 
|  | [13] [[https://ieeexplore.ieee.org/document/9771377|Neural Fusion For Voice Cloning]], 2022. | 
|  |  | 
|  | [14] [[https://ieeexplore.ieee.org/document/9573848|Emotional Speech Cloning using GANs]], 2021. | 
|  |  | 
|  | ~~DISCUSSION~~ | 
|  |  | 
|  |  |