Gdy pacjent mówi "dzień dobry" — AI już wie, czy jest zdenerwowany.
Zanim pacjent wypowie pierwsze zdanie z treścią, jego głos zdradza stan emocjonalny. Napięcie mięśni krtani zmienia ton. Przyspieszony oddech zmienia tempo. Podwyższony kortyzol zmienia jakość głosu w sposób mierzalny instrumentalnie.
Ludzie robią to intuicyjnie od zawsze: słyszymy w głosie rozmówcy złość, niepokój, smutek lub ulgę — zanim przetworzymy treść słów. Speech Emotion Recognition (SER) — rozpoznawanie emocji mowy — to dziedzina AI, która formalizuje tę intuicję w algorytm. I coraz częściej wchodzi do systemów medycznych.
Jak AI "słyszy" emocje — podstawy techniczne
Cechy akustyczne emocji
Każda emocja ma charakterystyczny podpis w sygnale dźwiękowym. Badania akustyki mowy identyfikują cztery kluczowe wymiary:
F0 — częstotliwość podstawowa (ton głosu): Zdenerwowanie i strach podnoszą F0 powyżej neutralnej normy danej osoby. Smutek i znudzenie obniżają. To najsilniejszy i najlepiej opisany wskaźnik stanu emocjonalnego w mowie.
Tempo mowy: Frustacja i podniecenie przyspieszają tempo. Smutek i zmęczenie je zwalniają. Zdenerwowany pacjent mówi szybciej i robi mniej pauz.
Intensywność (głośność): Gniew podnosi głośność w stopniu mierzalnym instrumentalnie. Lęk może zarówno podnosić, jak i obniżać głośność — zależnie od stylu ekspresji.
Jakość głosu — jitter i shimmer: Nieregularności w cyklu wibracji strun głosowych (jitter) i amplitudzie (shimmer) rosną przy napięciu emocjonalnym. Te parametry są niewidoczne dla ludzkiego ucha, ale wyraźne w analizie sygnału.
Jak działa model SER
Standardowy pipeline rozpoznawania emocji w mowie:
- Ekstrakcja cech akustycznych: Z sygnału audio wyodrębniane są wektory cech. Dominującym standardem są MFCC (Mel-Frequency Cepstral Coefficients) — reprezentacja spektralna dźwięku na skali zbliżonej do ludzkiego słuchu. Stosowane narzędzia: OpenSMILE (Audeering), Praat (Instytut Fonetyki Uniwersytetu w Amsterdamie).
- Klasyfikacja emocji: Model uczenia maszynowego (CNN, LSTM lub transformer — np. wav2vec 2.0 opublikowany przez Facebook AI Research w 2020 r.) przypisuje wektor cech do jednej z klas emocjonalnych.
- Kalibracja baseline: Dla każdego rozmówcy system może kalibrować normę indywidualną — porównując bieżący stan do wzorca głosu tej samej osoby z poprzednich rozmów, co podnosi precyzję.
Cztery zastosowania SER w medycznym voicebocie
1. Eskalacja w czasie rzeczywistym
Gdy model SER wykrywa wzrost F0 i intensywności powyżej progu zdenerwowania — voicebot może natychmiast zmienić strategię: zwolnić tempo własnej mowy, użyć fraz deeskalujących ("Rozumiem, że to frustrująca sytuacja. Chcę Ci pomóc rozwiązać to jak najszybciej.") lub przekazać połączenie do rejestratorki z flagą: "pacjent zdenerwowany".
To rozwiązanie już działa w centrach obsługi klienta w sektorze finansowym i telekomunikacyjnym — przeniesienie do medycyny jest krokiem naturalnym.
2. Alert personelu i mapowanie punktów bólu
Jeśli system regularnie wykrywa wzrost zdenerwowania w tym samym miejscu scenariusza (np. po usłyszeniu, że nie ma wolnych terminów w ciągu tygodnia), manager kliniki otrzymuje alerty o powtarzającym się "bólu procesu". To narzędzie ciągłego doskonalenia UX — oparte na rzeczywistych danych emocjonalnych, nie anonimowych ankietach.
3. Wsparcie skriningu zdrowia psychicznego
Podwyższone markery lęku lub wyraźna płaskość emocjonalna w głosie mogą być sygnałem klinicznym wartym uwagi. W specjalnościach takich jak psychiatria, psychologia lub onkologia — SER może flagować połączenia wymagające natychmiastowego kontaktu ze specjalistą lub pielęgniarką środowiskową.
To zastosowanie wymaga szczególnej ostrożności etycznej i wyraźnej podstawy prawnej — ale istnieje i jest rozwijane w środowiskach badawczych.
4. Monitoring jakości obsługi po call
Analiza nastroju pacjenta na przestrzeni rozmowy (nie tylko w jednym punkcie, ale jako trajektoria — czy pacjent kończył rozmowę spokojniej niż ją zaczynał?) to wskaźnik jakości, którego nie dają tradycyjne ankiety.
Wyzwania techniczne — co SER jeszcze nie robi dobrze
Różnice kulturowe: Polacy należą do kultur z bardziej powściągliwą ekspresją emocjonalną niż np. Włosi czy Rosjanie. Model SER trenowany na angielskich lub mieszanych danych może błędnie klasyfikować kulturowo neutralną ekspresję jako chłód lub niezainteresowanie. Polska SER pozostaje dziedziną mniej dojrzałą technicznie niż angielskojęzyczna.
Fałszywe pozytywy: Pacjent mówiący z natury szybko i głośno może być błędnie sklasyfikowany jako zdenerwowany. Stąd konieczność kalibracji indywidualnej i progów pewności — SER powinno eskalować przy wysokiej pewności klasyfikacji, nie przy każdym odchyleniu od normy.
Emocje mieszane: Pacjent onkologiczny może mówić spokojnie o przerażającej diagnozie. Osoba z depresją może brzmieć "normalnie". SER wykrywa ekspresję — nie stan wewnętrzny.
RODO i emocje w głosie — kluczowa kwestia prawna
Czy nastrój pacjenta wykryty z analizy głosu to dane osobowe szczególnej kategorii?
Odpowiedź zależy od zastosowania. Art. 9 ust. 1 RODO definiuje dane biometryczne jako "dane osobowe wynikające ze specjalnego przetwarzania technicznego dotyczącego cech fizycznych, fizjologicznych lub behawioralnych osoby fizycznej, umożliwiające lub potwierdzające jednoznaczną identyfikację tej osoby".
Analiza akustyczna głosu w celu identyfikacji stanu emocjonalnego może zbliżać się do tej definicji — szczególnie jeśli wyniki są przechowywane i profilowane. Rekomendacja VoiceLink: SER stosowane jest jako mechanizm eskalacji w czasie rzeczywistym (decyzja o przekazaniu połączenia) — nie jako narzędzie tworzenia trwałych profili emocjonalnych pacjentów. Wyniki analizy emocji nie są przechowywane jako osobny rekord w profilu pacjenta.
Kliniki, które chciałyby stosować SER do celów klinicznych (skrining zdrowia psychicznego), powinny przeprowadzić DPIA (art. 35 RODO) i uzyskać wyraźną podstawę prawną — najlepiej zgody pacjenta.
FAQ — Analiza emocji w medycznym AI
Czy pacjent jest informowany o tym, że jego głos jest analizowany pod kątem emocji? Zgodnie z zasadą transparentności (RODO art. 13) i AI Act art. 50 — tak. Klauzula informacyjna powinna obejmować informację o analizie akustycznej jeśli jest stosowana. VoiceLink rekomenduje krótkie poinformowanie pacjenta na początku rozmowy w scenariuszach, gdzie SER jest aktywny.
Czy AI może błędnie ocenić zdenerwowanie i niepotrzebnie eskalować połączenie? Tak — i dlatego próg eskalacji jest konfigurowalny. Zbyt czuły próg generuje niepotrzebne przekazania. Zbyt wysoki — opóźnia interwencję. Optymalne parametry zależą od profilu kliniki i bazy pacjentów. Rekomendujemy kalibrację na podstawie pierwszych 30 dni operacyjnych.
Czy SER może wykryć kłamstwo lub symulowanie choroby? Nie — SER wykrywa wzorce akustyczne korelujące z emocjami, a nie intencje. Wykrywanie kłamstwa (deception detection) to osobna i znacznie bardziej kontrowersyjna dziedzina, nieobecna w produktach VoiceLink i nieakceptowalna etycznie w kontekście medycznym.
Podsumowanie: Empatia AI nie zastąpi empatii człowieka — ale może ją uruchomić w odpowiednim momencie
Analiza nastroju w głosie pacjenta to technologia, która zwiększa wrażliwość systemu — nie jego kontrolę. Jej wartość polega nie na profilowaniu emocji, lecz na uruchamianiu właściwej reakcji we właściwym momencie: przekazaniu zdenerwowanego pacjenta do człowieka, zasygnalizowaniu punktu bólu w procesie, flagowaniu połączenia wymagającego klinicznej uwagi.
Dowiedz się, jak VoiceLink stosuje analizę nastroju w praktyce → Pokażemy Ci konfigurację progów eskalacji i raport emocjonalny dla Twojego profilu połączeń — na demo dostosowanym do Twojej kliniki.
