Az ügyvédi dokumentumautomatizálás jövője? – Mire lehet jó a szöveggenerálás és a GPT-3

Az előző részt ott hagytuk abba, hogy milyen nehéz egy dokumentumautomatizálási terméket úgy biztosítani az ügyvédeknek, hogy az kellően rugalmas is legyen, meg ne is legyen bonyolult. Megemlítettük, hogy a szervezeti tudás megfelelő megőrzése, elmélyítése egy ügyvédi praxis mérete esetén is feltételezi, hogy minél általánosabb szövegsablonokat használjunk.

Hogyan lehetne elkészíteni úgy egy szövegsablont, hogy az ügyvéd megírja pl. az adásvételi szerződés mintáját egy eladóra és vevőre, majd a program kellően okos legyen ahhoz, hogy ugyanazt a szöveget egy eladóra és több vevőre, de több eladóra és egy vevőre, vagy több eladóra és több vevőre is használni lehessen. Ugyanazt a magyar nyelvű végrendeleti fordulatot használhassuk több örökös esetén is, és ne kelljen azzal nyűglődnie az ügyvédnek, hogy mindegyikre ír külön szövegváltozatot.

Ezekre sajnos nincsen jó megoldás, legalábbis nem magyar nyelven és nem kereskedelmi használatra kész változatban. Ettől függetlenül érdemes azért megnézni, hogy milyen ígéretes lehetőségek vannak, hiszen az ilyen megoldások kialakítása csak szándék és erőforrás kérdése, amiből aztán egy egész sor magyar nyelvű iparág is profitálhatna. A nyelvi feldolgozó eszközök egyik típusánál, a szöveglétrehozó vagy természetes nyelvgeneráló (NLG) eszközöknél ezt a fajta problémakört már évtizedek óta vizsgálják. Így vannak szoftveres megoldások arra a célra, hogy megadott főneveket és igéket megfelelő darabszámban és nyelvileg helyes formában egy mondatban megjelenítsenek (lásd például az angol nyelvű SimpleNLG megoldásnál), bár egyelőre nehéz elképzelni, hogy ez miként jelenne meg egy ügyvédek által is használható felületen (miként rögzítené az ügyvéd az egyes főneveket, amiket ragozni kell stb.) Egyes funkciók magyar nyelven már most is elérhetőek: pl. a Hunspell morfológiai generátorával könnyű azt megmondani, hogy alakítsa át a program a “megrendelő” főnevet a ” megbízóitoknak” ragozásához hasonlóan (és erre konkrétan helyes választ is kapunk).

A szerződéses rendelkezések megfelelő, hatékony rögzítése tehát egyre magasabb absztrakciós szintre vezet minket. Éppen ezért ha a szerződéses rendelkezések rögzítésének ideális módját keressük, hamar áttévedhetünk arra a problémakörre, hogy miként lenne célszerű általában a jogász fejében lévő jogi tudást rögzíteni és megjeleníteni. Az ideális rögzített szövegezés kérdése nagyon hasonló ahhoz, amikor azt vizsgálják, hogy miként lehetne az egyes jogi állításokat (kijelentéseket) és érveléseket tömör, egyértelmű módon ábrázolni úgy, hogy azt a számítógép is megfelelően értelmezze.

Ha találunk ilyen rögzítési (megjelenítési) módot, akkor egy megfelelő szöveggeneráló megoldással már (relatíve) könnyen előállíthatunk olyan rendelkezéseket is, amelyek konkrét esetben használhatóak. Ennek számos gyakorlati előnye lenne. Az első nyilván a következetes, feszes, tömör szerződéses szóhasználat, ahol csak akkor és annyiban térünk el egy jogi szerkezettől, ha annak jól átgondolt, tudatos oka van. Ugyanígy célszerűbb, ha a reprezentált jogi tudáshoz kapcsoljuk a vonatkozó megfelelőségi információkat (milyen jogszabályi követelmények teljesítését célozza a rendelkezés), és nem a már létrehozott szövegezéshez vagy egy külön kommentárhoz. Ez könnyíti azt, hogy az irányadó szabályozások változása esetén mit és miként kell módosítani.

Nem utolsósorban az értékes irodai know-how nem a szerződések és sablonok szövegében rögzül csak, hanem általánosabban, akár oktatásra is felhasználható módon, mindezt úgy, hogy nem kell párhuzamosan egy magyarázó szöveget és egy szerződésbeli szöveget is vezetni. Megfelelő felület és nyilvántartás esetén így csökkenthető a tudásmenedzsmentre fordított idő, hiszen könnyebb lenne a jogi munka során feltárt új ismereteket egységesen csak itt rögzíteni, ahonnan már automatizált módon előállna a javított, bővített, új ismeretekhez igazított szövegezés. Ezáltal a magasabb szintű automatizálás még jobban hozzá tudna járulni a jogi munka magasabb színvonalához.

Dobozos kereskedelmi megoldás erre nem létezik (nem is tipikus), sőt, az ehhez szükséges számos alapvető eszköz és megalapozó kutatás is hiányzik, ettől függetlenül érdemes erre a lehetőségre odafigyelni. A szöveggeneráló nyelvi eszközök legfontosabb felhasználási területe ma éppen az, hogy miként tudnak bizonyos adatból megfelelő szöveget előállítani, például meteorológiai adatokból időjárás jelentést, vagy akár – automatizált döntéshozatal esetén – a döntés alapjául szolgáló adatokból megfelelően indokolt ítéletet írni. A tudásállományra épülő jogi szöveggenerálás sem lenne más, mint a reprezentált tudás adataiból megfelelő szöveg létrehozása.

Tehát ezen a téren is bár alapvető eszközök hiányoznak, hogy ezt éles üzemben használhassuk, de az e téren végzett korábbi kutatások nemhogy továbbra is aktuálisak, hanem egyre izgalmasabbak, és egyre valószínűbb, hogy a végén mindebből valami praktikusan is, sok szakember által használható megoldást lehet kialakítani.

Másik irányból megközelítve a jelenséget: a tudásalapú dokumentumautomatizálás létjogosultságát jól illusztrálja az is, hogy közismert, nemzetközi szerződéses sablonokat közzétevő szervezetek (ISDA, LMA) is sietve megindították a saját dokumentumautomatizálási projektjüket, és borítékolható, hogy ugyanezt más iparág-specifikus sablongyár is követi majd (pl. a FIDIC, JCT, NEC stb.). Bár egyelőre a szerződéses sablonszövegek és kommentárok külön is hozzáférhetőek, ez nem szükségszerű, hogy mindig így maradjon. A jelenlegi felhasználói igények mellett a sablonszöveg és külön magyarázat egy kevésbé kívánatos jogi technika, az automatizálási technikák fejlődésből viszont szervesen következik az is, hogy a szövegezést, annak jogi kereteit is egyre magasabb absztrakciós szinten határozzák meg, nem a jogi nyelv szokásos, sokszínű megjelenési formájában. A jogászok többsége egyértelműnek tartja, hogy az ilyen absztrakt leírásra a hagyományos jogi szöveget író jogászok a legalkalmasabbak, és hatékonyabb őket képezni egy absztraktabb megjelenítési nyelvre, mintsem egy mérnököt a jogi nyelvre. Az említett sablongyárak szerzői közössége azonban pont azt mutatja, hogy ez mennyire nem triviális kérdés, legalábbis a sablonok szintjén.

Könnyed befejezésül térjünk ki arra, hogy az utóbbi évben a bulvársajtó által is felkapott GPT-2 vagy GPT-3 – vagy a sajtó által kevésbé emlegetett BERT – nevű “deep learning” technikákra épülő nyelvi generáló eszközöktől várhatunk-e segítséget a fenti problémák megoldásában, illetve megváltoztathatja-e ez azt, hogy miként alkotunk jogi szövegeket?

A BERT azért érdekesebb számunkra, mert már magyarul is elérhető (lásd itt), míg ez a GPT-2 és GPT-3 kapcsán valószínűleg nem fog soha bekövetkezni, azaz egyszerűen magyar nyelvre ez utóbbiakat soha nem fogjuk tudni használni, nemhogy joginak tűnő szövegek, de még álhírnek tűnő szövegek írására sem (hacsak nem gépi fordítással együtt).

Ezek az eszközök kiválóan alkalmasak arra, hogy a betanításra használt szövegek (pl. a teljes magyar jogi korpusz, az összes magyar bírósági ítélet, a teljes jogi szakirodalom vagy csak a legnagyobb hazai piaci szervezet szerződéses állománya) alapján több rétegben is felderítsen statisztikai összefüggéseket, valószínűségi kapcsolatokat. A több rétegből álló neurális hálózatok és a betanítás megfelelő technikájának, valamint a tanításra használt nagy adattömegnek köszönhetően ezek a feltárt valószínűségi kapcsolatok nem korlátozódnak a nyelv alsóbb szintjeire, tehát a szótagok, szavak vagy mondatok szintjére. Nem csak például a szavak egymást követő megjelenésének valószínűségéről adnak információt. Ami érdekessé teszi, hogy ez a módszertan magasabb szintű nyelvi rétegekről is praktikusan használható valószínűségi információkat tud begyűjteni (mondattömbökről, a szöveg szerkezetéről stb.). Ez nem jelenti, hogy a deep learning technikáknak hála a számítógép meg tudna bármit is – emberi értelemben véve – érteni a szövegből. Azt is kutatók hadserege vizsgálja még sokáig, hogy miként lenne lefordítható a betanítással kinyert valószínűségi mátrixokat a megszokott nyelvészeti fogalmakra vagy a nyelvészeten túlmutató, jelen esetben például jogtudomány nyelvére a legjobban lefordítani (erről szól például az “explainability“, ami az EU-s etikai útmutatóban is az elvárt transzparencia egyik támogató elveként szerepel).

Bár a pontos okokat, így a határokat nem látjuk, praktikusan ez a módszer bizonyos fajta szövegek generálására, hiányzó szövegrészek megfelelő valószínűsége kipótlására jól felhasználható. Ezért láthatjuk azokat a zsurnalisztikában népszerű eredményeket, amikor néhány szóból vagy mondatból álló bevezetésből kívánt hosszúságú, és egész szórakoztató, és a ma megszokott tipikus újságírói szövegekhez képest késznek tűnő szövegeket írnak.

Tehát a hozzáértő szakértők szerződéses szövegek generálására is használhatják a BERT-et, ha megfelelő jogi szövegeken tanítják be. Ugyanakkor hozzá kell tenni, hogy a jogszabályokhoz hasonlóan a szerződéses szövegek generálása esetén nagyobb érték a pontos szóhasználat, mint a megfelelő mennyiségű szöveg gyors előállítása, ezért összességében kicsinek tűnik az ilyen célú felhasználás valószínűsége. Nehéz olyan jogi felhasználási esetet találni, amikor ez lenne a cél, főleg nem olyan felhasználási esetet, amiért bárki fizetni is hajlandó lenne. Ez könnyen használható sokszínűbb, de mégis nagy valószínűséggel helyes chat szövegek létrehozására, mintsem jogi szöveg generálására. A GPT-vel kapcsolatosan is az angol szaksajtóban azt olvashatjuk, hogy a jogi szöveges felhasználása nem életszerű, kivéve ott, ahol nem mondanak semmit arról, hogy mire is fogják ezt használni (például talán a DoNotPay esetén a chatbotnál). A marketinget szem előtt tartó személyek persze készek voltak rögtön azt mondani, hogy igen, az ő termékük is ezt fogja használni, de erre egyelőre nem érdemes építeni.

A GPT-3 a nagyközönség számára a jelen sorok írásakor nem hozzáférhető, de a GPT-2 kapcsán láthatunk néhány jogi szöveggel való kísérletezést. Például az EU jogi aktusain betanított megoldás is azt mutatja, hogy ez a fajta technika jogi célra nem igazán alkalmas, még a laikus olvasónak is nyilvánvaló, hogy a nyelvtanilag helyes jogi szövegből is valami alapvető kellék hiányzik (lásd https://thomasdelatte.com/app/).

Angol nyelven a GPT-3 talán arra jól használható lesz egyszer, hogy igazi “no code” megoldásként a felhasználó által angolul leírt szövegezésből kialakít egy megfelelő interjú szerkezetet és logikai magot (pl. a docassemble.org esetén Python kódot). Ez persze feltételezne egy hatalmas méretű, kifejezetten szövegautomatizálási adattömeget, amin be lehet tanítani a megoldást –kérdés, hogy ez akár angol nyelven is bármikor elő fog-e állni.

A cikksorozatban írtakra tekintettel kijelentjük: semmi jele annak, hogy az automatizált szöveggenerálás a közeljövőben Magyarországon megfosztaná “dicsfényétől az eleddig tisztelt” jogászi hivatásokat.

A szerző ügyvéd, a Homoki Ügyvédi Iroda vezetője

A cikk a Digitális jogalkalmazás rovat keretében jelent meg. Az eddigi írásokat itt találod.

***

Ha nem szeretnél lemaradni a további írásainkról, kövesd az Arsbonit a Facebookon. Videós tartalmainkért pedig látogass el a Youtube csatornánkra.