Adatlap


Esettanulmány címe:
Bejövő üzenetek automatikus szétválogatása, kategorizálása
Az esettanulmányban szereplő ügyfél ágazati besorolása:
információ, kommunikáció
Az esettanulmányban szereplő ügyfél piaci bemutatása - ágazat, cégméret, piaci körülmények, erőforrások:
Ügyfelünk biztonsági területen tevékenykedő szervezet, számukra a személyek pontos beazonosíthatósága a már meglévő számos adatbázis segítségével alapvető fontossággal bír.
A megoldandó üzleti probléma bemutatása:
Az ügyfél nagyméretű adatbázisaiban lévő tartalmak kereshetővé tétele egy olyan összetett vállalati kereső segítségével, mely kimagaslóan teljesít az entitások, különösképpen a személynevek beazonosítása terén. A testre szabható keresőfelületnek alkalmasnak kell lennie többnyelvű dokumentumok tartalmában történő igen bonyolult és akár tömeges keresések végrehajtására is. Mindehhez kimagasló névazonosító képességnek kell társulnia, hiszen releváns találatokra van szükség még abban az esetben is, ha a felhasználó az indított keresés során álnevekre, becenevekre keres rá és teszi mindezt magyar vagy idegen nyelven, esetleg a keresési kifejezést véletlenül elgépelve.
Az alkalmazott megoldás bemutatása és a bevezetést követően elért üzleti előnyök:
Az általunk fejlesztett, témafüggetlen vállalati keresőmotor a világ vezető entitásfelismerő és névazonosító megoldását integrálja. Az entitások azonosításában jut szerephez a gépi tanulás, melynek alapja a statisztikai modellezés, amely az entitásokat a kontextus alapján, nem pedig a karakterláncok vagy minták egyeztetésének segítségével állapítja meg. A modell alapja egy gondosan kidolgozott korpusz, amely több milliónyi hírcikkből, közösségi média- és blogbejegyzésből áll. A szövegek címkézést és annotálását mindig az adott nyelvet, mint anyanyelvet használó szakértők végzik. A támogatott nyelvek listája igen gazdag, hiszen az angol, német, francia, spanyol, portugál, orosz, olasz, arab és japán nyelvek mellett olyanok is elérhetők, mint a pastu, a perzsa, a tradicionális és egyszerűsített kínai, az urdu, a koreai vagy a thai. Anyanyelvünk is felkerült erre a listára - melynek megvalósításában szintén részt vett a Precognox -, így a projekt során már a magyar nyelvű névkeresés is megoldottá vált. A névindexelő megoldás szintén gépi tanulást használ, ahelyett, hogy névváltozatokból generált listákat készítene. Ennek a megközelítésnek köszönhetően elkerülhetők az exponenciálisan növekvő (név)listák és ráadásul a korábban soha nem látott nevek is beazonosíthatók. Eltérően a drága és kevésbé pontos megoldásoktól, amelyek több ezer helyesírási variánshoz vezetnek, az eszköz az egyes névkomponensek belső szerkezetének intelligens összehasonlítását fejlett nyelvi algoritmusok segítségével végzi el. A névazonosítás során pedig még fontosabb a korábban említett 18 nyelv elérhetősége, hiszen egy adott személy ezáltal könnyedén beazonosítható, akár latin, kínai vagy cirill betűkészlettel került a személyneve leírásra. A fenti esettanulmányban bemutatott megoldás kimagaslóan hasznos lehet az alábbi területeken tevékenykedő cégeknek és szervezeteknek: - rendvédelem- és fenntartás - határvédelem - nyomozói- és büntető igazságszolgáltatási tevékenységek.