OKTATÁS + KUTATÁS
TUDOMÁNY ÉS
INNOVÁCIÓ

Az alaptechnolgiáktól
az ipari termékekig.
Több, mint 30 év tapasztalat.

MAGYAR NYELVŰ
SZÖVEGFELOLVASÓ
TÖBB, MINT 30 ÉVE

Folyamatosan fejlesztjük szövegfelolvasó technológiáink,
Windows, Linux, Android rendszereken.Bővebben...

Korpuszos szövegfelolvasó


HMM szövegfelolvasó


Diádos / triádos szövegfelolvasó


LÉGY A CSAPATUNK TAGJA!
BARÁTSÁGOS LÉGKÖR,
FOLYAMATOS KIHÍVÁS

Várjuk a szorgalmas, proaktív hallgatók jelentkezését
önállólabor, szakdolgozat-, diplomatervezés
és PhD témákban. Bővebben...

SZAKMAI GYAKORLAT
ANDROID ÉS WINDOWS
ALKALMAZÁS FEJLESZTÉS

Motivált hallgatókat keresünk a laboratóriumunkba
3-6 hónapos szakmai gyakorlatra
jól körülhatárolt, célrendszerek fejlesztésére.Bővebben...

DEEP LEARNING
"MILYEN MÉLY A NYÚL
ÜREGE ALICE?"

Mély neurális hálózatokkal
nagyteljesítményű GPU-kon a jövő osztályozó
és predikciós modelljeit építjük.Bővebben...

KÍVÁNCSI VAGY
MI TÖRTÉNIK BESZÉD KÖZBEN
A SZÁDBAN?

A szájüregről készült ultrahangos
felvételek elemzésével láthatóvá
tehetjük, hogyan táncol a nyelv!Bővebben...

kutatas-ultrahang
Beszédtechnológia és Intelligens Interakciók Laboratórium

Csoportunk "régi motoros", jelen vagyunk a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékén a kezdetetktől fogva. Fő kompetenciáink a magyar nyelvű beszédszintézis (női és férfi hangon), ember-gép, ember-robot interfészek, kisegítő interfészek vak-, látás- és beszédsérült felhasználóknak, továbbá az általános statisztikai és modern gépi tanuló algoritmusok. Kiemelt hangsúlyt fektetünk a szorgalmas hallgatók személyes konzultációjára, tudásgondozására.

Beszédszintézis

Laboratóriumunk hazánkban egyedülálló magyar nyelvű gépi szövegfelolvasó (Text-to-Speech, TTS) technológiák kutatásában, fejlesztésében. Mit is jelent ez? Tetszőleges gépelt szöveget természetes hangzású emberi beszéddé alakítunk! Női és férfi hangon egyaránt! Megoldásaink a beágyazott rendszerektől kezdve, okostelefonokon át, a nagyteljesítményű szerverekig elérhetőek Linux, Windows és Android rendszereken.

Intelligens interakciók

A technológia egyre inkább mindannapi életünk részese, ezért kiemelten fontosnak tartjuk az ember-gép és ember-robot kapcsolat kutatását. Többek között foglalkozunk humanoid robot vezérléssel, multimodális interfészek kialakításával, okostelefonos alkalmazások felhasználói élményének növelésével, továbbá vak-, látássérült és beszédsérült felhasználóknak speciális felületek kialakításával.

Modern gépi tanulás

Mind a beszédszintézis, mind az intelligens interakciók és a kapcsolódó határterületek kutatása és fejlesztése a statisztikai módszerek, valamint a modern gépi tanulás magas szintű ismereteit igénylik. Elsődleges tématerületeink a rejtett Markov-model (Hidden Markov Model, HMM) és a mély neurális hálózatok (Deep Neural Networks, DNN) alap- és alkalmazott kutatása.

339 Publikáció
28 Sikeres projekt
103 Végzett hallgató
18 TDK helyezés
143 Nemzetközi előadás
7 Szabadalom
3392 Kávé
6 OTDK
helyezés

MAGYAR NYELVŰ SZÖVEGFELOLVASÓ

Ipari rendszerekben sikeresen alkalmazott, skálázható Text-to-Speech (TTS) megoldások.
Válassza ki az adott scenárióhoz legjobban illeszkedő szövegfelolvasó motorunkat. Mindegyik elérhető női és férfi hangokon.

Profivox korpuszos TTS

A korpuszos magyar szövegfelolvasó rendszerünk nyújtja a legtermészetesebb gépi beszédhangot – szinte összetéveszthető a természetes beszéddel. Ez a rendszerünk szól például a Keleti Pályaudvaron. A legmagasabb minőséget előre meghatározott tématerületen nyújtja (pl. árlista felolvasás, menetrend, időjárás jelentés). Új tématerületek esetén szükség lehet a rendszer finomhangolására. A Profivox korpuszos TTS elfut egy átlagos asztali számítógépen.

Bővebben

Érthetőség 100%

Természetesség 90%

Beszédhangok száma 12

Méret 5+ GB

Profivox HMM TTS

A harmadik típusú szövegfelolvasó rendszerünk a legflexibilisebb. A természetes beszédhez hasonlító gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Akár már 10 perc hangfelvétel segítségével bárkinek a hangkarakterét visszaadó gépi hangot tudunk vele készíteni legyen szó akár női, akár férfi beszélőről! A hangmagasság és a beszéd sebessége széles tartományban állítható. A megoldás elérhető okostelefonokon és asztali számítógépes környezetben.

Bővebben

Érthetőség 80%

Természetesség 90%

Beszédhangok száma 30+

Méret 2-100 MB

Profivox diád/triád TTS

A legrégebbi technológiánk, mely már számos ipari alkalmazásban bizonyított! A megoldás az alacsony erőforrású beágyazott rendszerektől kezdve, az okostelefonokon keresztül, a többszáz szálas szerverig elfut szinte bármilyen konfiguráción. Speciális igényeket is ki tudunk szolgálni! Zajos környezetben is rendkívül jól érthető, nagy tartományban tudjuk állítani a hangmagasságot és sebességet! Többek között a Profivox diád/triád TTS szól a JAWS for Windows képernyőfelolvasóban, beszélő bankautomatákban és számos telefonos ügyfélszolgálati rendszerben.

Bővebben

Érthetőség 100%

Természetesség 40%

Beszédhangok száma 6

Méret ~1 MB

Legújabb projektek

NAO robot a gyermekek szolgálatában

A kutatócsoportunk a Szent László Kórház Hematológiai és Őssejt-transzplantációs Osztályával kezdett együttműködést. Az innovatív orvoscsoporttal közösen dolgozva vizsgáljuk, hogy a beteg gyerekek miképp reagálnak a robotra, milyen játéklehetőségeket látnak benne.

Kutatási projekt indulhat arra, hogy a robot interraktívan tudjon reagálni, ismerje föl kivel áll szemben, fizikai paraméterek alapján adaptálódjon a gyerekek állapotához és annak megfelelően kommunikáljon vele. A robot nagy segítség lehet azon gyerekek gyógyításában, akik hónapokat töltenek steril szobában. (Forrás, Videó)

Ultrahang és beszéd: hogyan táncol a nyelv?

A szájüregről készült ultrahangos felvételek elemzésével láthatóvá tehetjük, hogyan "táncol" a nyelv beszéd közben! Az újabb ultrahangos technológiákat (nagyfelbontású és nagysebességű 2D / 3D / valós idejű 3D) azonban korábban nem alkalmazták beszédkutatási célokra. Részproblémák, amikkel foglalkozunk: nyelvkontúr követő algoritmusok tesztelése és megvalósítása, a nyelvmozgás és a beszédjel összehasonlítása, és annak vizsgálata, hogy ezek beszédtechnológiában hogyan használhatóak fel. A kutatás során párhuzamos beszéd és ultrahangos videó adatbázist elemzünk és dolgozunk fel.

Deep learning alapú szövegfelolvasó

Az elmúlt évtizedben a gépi szövegfelolvasó egyik meghatározó ága a statisztikai parametrikus beszédszintézis. Ekkor nem hullámformákat fűzünk össze, hanem a hangot beszédkódoló eljárásokkal (mint amilyen a mobiltelefonokban is van, vagy mint amit a Skype használ) paraméterekre bontjuk (ettől lesz parametrikus!) és ezeket modellezzük statisztikai, gépi tanuló eljárásokkal.

A mély neurális hálózatok az elmúlt években minden korábbi módszernél hatékonyabbnak bizonyultak. Laboratóriumunkban a nemzetközi tudományos és ipari megoldásokat követve, hazánkban egyedülálló aktív kutatás folyik mély neurális hálózat alapú beszédszintézis témakörben.

A mély MLP-től (Multi Layer Perceptron) kezdve, a modern rekurrens neuronhálózatokon át (Long Short Term Memory – LSTM, Gated Recurrent Unit – GRU) az autoencoderekig kísérleteket végzünk a sokrétű paraméterfolyamok pontos modellezésére. A modelleket nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon tanítjuk, C, Python és LUA nyelven. Célunk minden korábbinál természetesebb és változatosabb gépi beszéd előállítása!

Látássérülteket támogató keretrendszer

A VUK (Visionless sUpporting frameworK) projekt célja, hogy a vakok és gyengénlátók mindennapi életét elősegítse olyan kihívásokkal teli feladatokban, mint például a közösségi közlekedésben részvétel. Emellett a projekt egy egyszerű, hatékony és megfizethető ajtótól-ajtóig navigáló asszisztens alkalmazást is tervez nyújtani.

A szokásos eszközökkel szemben, amelyek csak kültéri navigációra használhatóak, a projektben olyan helyzetekre is készülünk, amikor a vak személy ismeretlen beltéri környezetben (pl. földalatti, vasútállomás, buszmegálló) is utazik, vagy amikor az utazás célja komplex épületek (pl. pláza, üzletközpont, irodaház) meglátogatása.

Amellett, hogy a projekt segíteni fogja a vak és gyengénlátó emberek mindennapjait, az elképzelt szolgáltatás cégeknek, irodáknak és infrastruktúra szolgáltatóknak (pl. helyi kormányzat) is érdekes lehet, hiszen a vakok itt is dolgozhatnak vagy megfordulhatnak – a projekt pedig segítheti integrálódásukat a közösségbe.

Szociális életet támogató személyes eszköz időseknek

A PaeLife (Personal Assistant to Enhance the Social Life of the Seniors) projekt 8 partnert fog össze Portugáliából, Franciaországból, Magyarországról, és Lengyelországból és azokra fókuszál, akik nemrégiben vonultak vissza, valamilyen szinten hozzászoktak a technológia használatához, és szeretnének aktívak, produktívak, és szociálisan elkötelezettek maradni. A projekt fő célja, hogy harcoljon az elszigeteltség és kirekesztettség ellen, hogy lehetőséget teremtsen az idősek számára egy hatékonyabb, független, társadalmilag aktívabb és kiteljesedettebb életre egy személyes életvezetési asszisztens segítségével, amely társadalmi kommunikációt, tanulást és szórakozást támogató virtuális jelenléten alapul.

További folyamatban lévő projektek Befejezett projektek

Akadémiai partnereink

Ipari partnereink