Speech2Face – sztuczna inteligencja na podstawie Twojego głosu wygeneruje obraz Twojej twarzy

Czy wygenerowanie obrazu twarzy na podstawie głosu jest możliwe? Dla sztucznej inteligencji, która potrafi rozszyfrować kto ci się podoba, stworzenie obrazu Ciebie nie będzie problemem.

Rozpoznawanie twarzy a prawo

Dzięki sztucznej inteligencji możliwe stało się rozpoznawanie twarzy i technika ta zyskała na popularności jeszcze zanim Deep Learning zawładnęło światem. Problem w tym, że technologia, która początkowo miała służyć do rozpoznawania przestępców mogła być wykorzystywana do namierzania wszystkich i wszędzie. Najpierw korzystania z niej zabroniło San Francisco, a później na jej drodze stanęło europejskie RODO, które nasze twarze traktuje jako chronione dane osobowe. Nawet w miejscach, w których korzystanie z tej technologii nadal jest legalne istnieje problem w takiej postaci, że jeśli nie dostarczysz bazie danych swojego zdjęcia, nie powinna Cię namierzyć.

Teraz dzięki nowemu algorytmowi sztucznej inteligencji o nazwie Speech2Face w kwestii rozpoznawania twarzy wiele może się zmienić, a to dlatego że nowa technologia na podstawie nagrania głosowego, trwającego zalewie kilka sekund, jest w stanie wygenerować obraz mówiącego!

Na czym polega algorytm generowania twarzy na podstawie głosu Speech2Face?

Speech2Face nie jest pojedynczym systemem, a połączeniem wielu technik uczenia maszynowego w konkretnym celu, którym jest generowanie obrazu na podstawie klipu audio. Najpierw technologia pobiera plik z zapisem głosowym, a następnie przekształca go w spektrogram, czyli wizualną reprezentację sygnału audio. Dodajmy, że spektrogramy są powszechnie stosowane wszędzie tam, gdzie zachodzi konieczność analizy dźwięku.

Ciąg dalszy jest już bardziej skomplikowany, ponieważ spektrogram wykorzystuje splotową sieć neuronową (CNN), by kodować dźwięk do odpowiedniego dla maszynowego odczytu formatu.

Zobacz: Jak robot EVA nauczył się naśladowania ludzkiej mimiki?

Dodajmy, że w tej technologii na podstawie głosu wygenerowanych zostało już ponad 100 000 twarzy! Algorytm samodzielnie przeszukał także sieć w poszukiwaniu nagrań oraz filmów, by stworzyć pewne korelacje między cechami twarzy i głosu.

W ostatnim etapie pracy Speech2Face pobiera dane wyjściowe z CNN i przekazuje je do dekodera twarzy, który wykorzystuje numeryczną reprezentację twarzy i tworzy jej rzeczywisty obraz. System generalizuje informacje np. Chińczyk, który mówił w swoim ojczystym języku został rozpoznany jako Azjata, z kolei, gdy mówił po angielsku algorytm przypisał mu biały kolor skóry.

Wygląda to tak:

speech2face
speech2face

Jak wyglądają twarze wygenerowane na podstawie zapisu głosu?

Jak widać z obrazów, technologia Speech2Face nie działa z precyzyjną dokładnością. Na podstawie zapisu głosu można wygenerować informacje na temat płci, pochodzenia etnicznego, wieku, a nawet budowy kości, ale niemożliwe byłoby rozpoznanie koloru włosów, znaków szczególnych twarzy czy koloru oczu.

Twórcy technologii Speech2Face po stworzeniu obrazu twarzy poszli o krok dalej. Zadali sobie pytanie, czy twarz wygenerowana przez algorytm jest w stanie namierzyć rzeczywistą lokalizację osoby? By poznać na nie odpowiedź, wprowadzili pliki do programu rozpoznawania twarzy. Choć wyniki nie były precyzyjnie dokładne i bliższe losowemu wyborowi, zwolennicy prywatności mogą odczuć w tym momencie słuszny dyskomfort.

Zobacz: Głos a osobowość – co mówi o Tobie Twój głos? Zobacz badania

System mógłby być używany przez policję do namierzania stalkerów, terrorystów, a także np. w call centre. Badania przeprowadzone przez Harvard Business Review pokazują, że wydajność telemarketerów wzrasta, gdy rozmawiają z kimś, kogo wcześniej widzieli. Z kolei odmiana Speech2Cartoon mogłaby wygenerować kreskówkowy obraz twarzy, albo bezpośrednio zrobić z niej emoji, co z pewnością przypadłoby do gustu młodzieży.

Z jednej strony mamy tu zalety i wizję poprawy naszego bezpieczeństwa, a z drugiej poważny zamach na prywatność. Nic wiec dziwnego, że technologia jest przez wielu uznawana jako kontrowersyjna i budzi etyczne zastrzeżenia.

Źródło: https://medium.com/swlh/the-ai-that-knows-your-face-from-your-voice-90772b352f2a

speech2face
Diana Nowek

Jestem profilerem behawioralnym oraz badaczem komunikacji niewerbalnej. Od wielu lat prowadzę firmę szkoleniowo-doradczą o nazwie Institute of Nonverbal Communication, w ramach której prowadzę badania z użyciem technologii biosensorycznych.

Share this post