Od gestu do tekstu w czasie rzeczywistym. Studenci PK rozwijają tłumacza języka migowego opartego na AI

30.06.2026

Studenci Wydziału Inżynierii Elektrycznej i Komputerowej pracują nad prostym tłumaczem języka migowego, od lewej: Dmytro Burkovskyi, Illia Kostruba i Oleksii Izvarin / Fot. Robert Żewecki.

Czy smartfon wyposażony w standardową kamerę może stać się tłumaczem języka migowego? Studenci Politechniki Krakowskiej – Dmytro Burkovskyi, Oleksii Izvarin i Illia Kostruba – udowadniają, że to możliwe. Stworzyli aplikację „Rozumiemy się bez słów”, która wykorzystuje algorytmy widzenia komputerowego i modele uczenia maszynowego do analiz gestów dłoni i zamienia je na tekst. To prototyp, który może stać się podstawą uniwersalnego systemu tłumaczenia języka migowego działającego na zwykłym smartfonie – bez specjalistycznych rękawic, czujników czy dodatkowego sprzętu.

Projekt studentów II roku informatyki w inżynierii komputerowej odpowiada na realny problem społeczny. Według danych WHO ponad 430 mln osób na świecie wymaga rehabilitacji z powodu istotnego ubytku słuchu, a Światowa Federacja Głuchych szacuje, że ponad 70 mln osób należy do społeczności posługujących się językami migowymi. W Polsce – jak wynika z danych GUS – na koniec 2024 roku 270,5 tys. osób miało orzeczenie o niepełnosprawności z powodu problemów z głosem, mową i słuchem.

– To nie oznacza oczywiście, że wszystkie te osoby posługują się językiem migowym, ale pokazuje wielkość potrzeb osób, których dotyczą bariery komunikacyjne. Tymczasem znajomość języka migowego w społeczeństwie jest ograniczona, a dostęp do tłumacza nie zawsze jest natychmiastowy – mówi dr inż. Karol Suchenia z Katedry Automatyki i Informatyki na Wydziale Inżynierii Elektrycznej i Komputerowej, opiekun projektu oraz Koła Naukowego Mikrokontroler, w ramach którego powstała studencka aplikacja.

Prosty tłumacz w smartfonie z pomocą zaawansowanej technologii
Rozwiązanie działa w czasie rzeczywistym. Kamera rejestruje obraz dłoni, po czym system wyznacza 21 punktów charakterystycznych, analizuje ich układ i ruch w czasie, a następnie klasyfikuje wykonany gest jako konkretny znak, czyli literę alfabetu migowego – tłumaczy Oleksii Izvarin, jeden z autorów oprogramowania, student Wydziału Inżynierii Elektrycznej i Komputerowej PK.

Działanie aplikacji opiera się na dwustopniowym modelu sztucznej inteligencji. Pierwszy etap to algorytm LSTM Binary Gate, który ocenia, czy aktualny ruch rzeczywiście jest gestem, czy tylko przypadkowym ułożeniem dłoni lub ruchem przejściowym. – Dzięki temu ograniczana jest liczba fałszywych rozpoznań. Jeśli gest zostanie wykryty, sekwencja trafia do modelu klasyfikacyjnego opartego na Transformer Encoderze, który rozpoznaje jedną z liter alfabetu albo spację. Wynik przechodzi przez etap wygładzania prawdopodobieństwa, co stabilizuje odpowiedź i zapobiega przypadkowym zmianom rozpoznawanej klasy. Rozpoznany znak jest dodawany do tekstu wyjściowego w aplikacji mobilnej.

Studenci podkreślają, że ich projekt to nie tylko algorytm AI, ale kompletne rozwiązanie – od analizy obrazu z kamery, przez ekstrakcję punktów dłoni, przygotowanie danych treningowych, trenowanie modeli, aż po warstwę aplikacji mobilnej. Ważnym elementem jest autorski toolset, który wspiera przygotowanie danych, wizualizację punktów dłoni, augmentację danych oraz analizę wyników trenowania.

Na świecie istnieją już podobne rozwiązania, ale młodzi innowatorzy Politechniki Krakowskiej podkreślają, że ich projekt wyróżnia prostota w obsłudze.

Od liter do zdań – w planach testy z użytkownikami
Najbliższe kroki to zwiększenie i zróżnicowanie bazy danych treningowych, poprawa stabilności rozpoznawania oraz ograniczenie błędów wynikających z ruchów przejściowych. Docelowo system ma zostać rozszerzony z pojedynczych liter na słowa, proste frazy i zdania. – Jeżeli mówimy o wersji MVP, czyli aplikacji nadającej się do szerszych testów z użytkownikami, realny horyzont to około 9-12 miesięcy dalszych prac – szacują studenci. – Jeżeli natomiast celem miałby być pełniejszy system rozpoznawania słów, zdań i naturalnej komunikacji migowej w zmiennych warunkach, to jest to projekt co najmniej kilkunasto- lub kilkudziesięciomiesięczny.

W planach jest również rozwój asystenta 3D, który mógłby wspierać komunikację w drugim kierunku, czyli prezentować komunikaty tekstowe w formie migowej. Autorzy zapowiadają także integrację z komunikatorami, wideokonferencjami lub systemami obsługi klienta. – Największym wyzwaniem nie jest samo napisanie aplikacji, ale przygotowanie odpowiednio dużej, jakościowej i zróżnicowanej bazy danych oraz walidacja rozwiązania z udziałem osób posługujących się językiem migowym – podkreślają.

Komunikacja bez barier
Projekt „Rozumiemy się bez słów” został nagrodzony podczas tegorocznej Uczelnianej Sesji Kół Naukowych Politechniki Krakowskiej. – Projekt zrobił na mnie duże wrażenie, ponieważ łączy kilka ważnych obszarów: uczenie maszynowe, widzenie komputerowe, aplikacje mobilne oraz realny problem społeczny – komentuje dr inż. Karol Suchenia.

Dr Suchenia zwraca uwagę, że projekt ma potencjał zarówno naukowy, jak i wdrożeniowy. – Zwłaszcza jeśli kolejne etapy będą prowadzone we współpracy z osobami głuchymi, słabosłyszącymi oraz specjalistami od języka migowego.

Twórcy projektu zdają sobie sprawę, że przed nimi jeszcze długa droga. – Na tym etapie nie twierdzimy jeszcze, że aplikacja jest gotowym, komercyjnym tłumaczem języka migowego. Jest to prototyp, który pokazuje wykonalność rozwiązania i stanowi podstawę do dalszych prac – zastrzegają. Jednocześnie podkreślają, że ich celem jest stworzenie narzędzia, które realnie wspomoże komunikację między osobami słyszącymi a niesłyszącymi.

Kuba Paduch, Zespół prasowy Politechniki Krakowskiej, fot. PK, Robert Żewecki

Data publikacji: 30.06.2026 r.