O ASR w projektach medycznych: polecamy publikację prof. K. Kuligowskiej, M. Stanuscha i M. Koniewa

Miło nam poinformować, że Wydawnictwo Tygiel opublikowało pracę badawczą pod tytułem: “Zastosowanie automatycznego rozpoznawania mowy w transkrypcji wywiadów medycznych – porównanie silników ASR dla języka polskiego” autorstwa prof. K. Kuligowskiej (Uniwersytet Warszawski), M. Stanuscha (Sovva S.A.) i M. Koniewa (Sovva S.A.). Analiza porównawcza wiodących na polskim rynku silników ASR (ang. Automatic Speech Recognition) jest częścią projektu zrealizowanego dla Narodowego Centrum Badań i Rozwoju. Materiałem, który posłużył do powstania pracy są polskojęzyczne nagrania fraz najczęściej wypowiadanych przez pacjentów podczas wizyt w gabinetach lekarskich.

Czym właściwie jest system ASR?

ASR (ang. Automatic Speech Recognition) to systemy rozpoznawania mowy, za pomocą których ludzka wypowiedź jest „rozszyfrowywana” a następnie przekładana na tekst. Jest to podstawowy mechanizm działania voicebotów, dodatkowo uzupełniony poprzez system TTS. TTS (ang. Text to Speach) działa w przeciwnym kierunku: zamienia tekst z silnika na głos (np. z syntezatora).

Na rynku, również polskim, istnieją różne systemy rozpoznawania mowy, a ich jakość może się między sobą różnić. Właśnie analiza jakości takich systemów była przedmiotem pracy badawczej prof. Karoliny Kuligowskiej z Uniwersytetu Warszawskiego oraz Macieja Stanusch i Marka Koniewa z Sovva S.A.

Najpopularniejsze ASR w zastosowaniach medycznych

Badaniu zostały poddane następujące systemy, które są jednocześnie:

  • system Google ASR (producent Google Inc.),
  • system Microsoft ASR (producent Microsoft Inc.),
  • system Techmo ASR (producent Techmo sp. z o.o.).

Próbka danych zawierała około 1000 nagrań krótkich zdań i fraz wypowiedzianych w języku polskim, którymi były wyrażenia medyczne.

Jak z tym wyzwaniem poradziły sobie poszczególne ASR-y? Szczegółowa analiza w publikacji.

Streszczenie pracy “Zastosowanie automatycznego rozpoznawania mowy w transkrypcji wywiadów medycznych – porównanie silników ASR dla języka polskiego”

W dążeniu do bardziej wydajnej i skoncentrowanej na pacjencie opieki zdrowotnej kluczowym elementem wspierającym podmioty lecznicze stają się automatyczne systemy rozpoznawania mowy. By jednak uznać je za użyteczne, systemy te muszą spełniać określone wymagania podyktowane realiami rynkowymi. Dlatego też celem niniejszego artykułu była analiza porównawcza wiodących na polskim rynku silników ASR, wykonana na zbiorze nagranych w języku polskim fraz najczęściej wypowiadanych przez pacjentów podczas wizyt w gabinetach lekarskich. Wyniki naszej analizy wykazały, że między badanymi silnikami ASR istnieją niewielkie różnice w dokładności rozpoznawania mowy. Mimo to wszystkie prezentowały specyficzne problemy, które zostały podzielone na trzy grupy: błędne rozpoznania, problemy z jakością i granice słów. Wyniki badań dostarczają cennych informacji szerokiemu gronu interesariuszy, ułatwiając rozwój rozwiązań do rozpoznawania mowy polskiej dla specyficznych potrzeb sektora medycznego. Słowa kluczowe: automatyczne rozpoznawanie mowy, speech-to-text, silniki ASR dla języka polskiego, transkrypcja wywiadów medycznych.

Inne projekty medyczne w Sovva S.A.

Projekt dla NCBiR to nie jedyne wdrożenie medyczne Sovva. Oprócz rozwiązań „szytych na miarę potrzeb klienta”, w skład aktualnej oferty wchodzą także pudełkowe rozwiązania takie jak wirtualna recepcja medyczna. Głównym zadaniem voicebota jest obsługa procesu rejestracji wizyt lekarskich do specjalistów (np. lekarz ogólny, pediatra, stomatolog, kardiolog czy też dowolna inna specjalizacja).

Wirtualna recepcja z voicebotem umawia pacjentów na wizyty zdalne i stacjonarne w wybranych terminach i lokalizacjach. Więcej informacji na ten temat znajdziesz tutaj.

Możesz też zapytać o wersję demo voicebotów do rejestracji wizyt.

Facebook
Twitter
LinkedIn
WhatsApp
Anna Isakow

Anna Isakow

Content marketing specialist & Quality Assurance Sovva.ai