Parencaj lingvoj

Eseo de Bujdosó Iván

Komparado de lingvoj

Komputiloj, programoj kaj datumoj fariĝis parto de nia ĉiutaga vivo. La ŝanĝiĝo estas tiel rapida, ke iuj aplikoj naskiĝas ne pere de oficialaj projektoj, sed spontanee. Ankaŭ la ideo de la nuna temo naskiĝis tiel.

En AIS-sesio (30 aŭg 2004, Komarno) mi aŭskultis la prelegon de Helmar Frank pri lingvo-kibernetiko, kie temis pri la “temperaturo” de iu teksto. Li direktis min al la studoj de Zipf kaj Mandelbrot.

La Zipfa leĝo studas tiujn fenomenojn kies distribuo ne estas laŭ la normala statistika distribuo, sed estas kelkaj tre oftaj kaj multe da tre maloftaj eventoj. Ekzemple, la distribuo de la havaĵoj estas laŭ tiu, kiun montris la itala sciencisto Pareto: 20 procentoj de la loĝantoj posedas 80 procentojn de ĉiuj havaĵoj. La merito de Zipf estis, ke li ordigis la distribuon laŭ ofteca rango kaj ĉefe tio, ke li desegnis tion kun logaritmaj aksoj. Tiam la distribua kurbo fariĝas linia. Oni povas determini la klinon rilate al la akso de tiu ĉi linio.

Esperanto kaj la leĝo Zipf

Iam mi scivolis, ĉu esperantistoj scias pri tio kaj mi enskribis la vortojn “Esperanto” kaj “Zipf”. Je mia surprizo mi ekvidis tie seminarian taskon de iu usona universitato. La studentoj, kiuj studas tie komputadon, ricevis la taskon esplori, ĉu Esperanto ekstervicas laŭ la vortstatistikaj karakterizaĵoj. Estas nekutima afero, ke neesperantistoj interesiĝas pli pri kelkaj aspektoj de Esperanto ol esperantistoj. Sed ili eksentas la ŝancon por io science interesa. La lekciisto, kiu donis la taskon, “enamiĝis” al la temo. El la seminaria tasko fariĝis serioza esploro eĉ kun la apliko de la plej evoluinta teorio: artefarita neŭra reto. Ili ekzamenis ses lingvojn: la anglan, Esperanton, la francan, la germanan, la hispanan kaj la italan. Ĉe ĉiuj lingvoj estis grandega korpuso, ĉe la angla 97 libroj, ĉe Esperanto 34 libroj, entute 283 libroj.

La rezulton de la esploro oni konigis en la internacia scienca konferenco de IASTED “Artefarita Inteligento kaj ĝia Apliko” (Manaris et al. 2006). Ĉefa konstato: Esperanto estas “artefarita”, sed laŭ la statistikaj datumoj oni ne povas diferencigi naturan kaj artefaritan lingvojn.

La esploro baziĝis sur la Zipf-leĝo. Oni determinis ĉe ĉiuj lingvoj la kvanton da vortoj, vortduoj, vorttrioj, vortdistancoj [kiom da aliaj vortoj estas inter du aperoj de la sama vorto] kaj la vortlongecoj. La statistikaj proprecoj de Esperanto estis similaj al la proprecoj de la aliaj kvin lingvoj. Per la apliko de neŭraj retoj oni instruis la analizan sistemon je tio, ke ĝi aŭtomate rekonu la lingvon de iu teksto. La divenado sukcesis plej bone, se oni aplikis la korelacian koeficienton kaj la klinon de la Zipf-linio de la vortdistanco.

Elektado de la esplorota teksto

La supra esploro ekzamenis nur ses lingvojn. Mi rimarkis, ke la vico laŭ la Zipfa klino estas: Esperanto, hispana, germana, itala, franca kaj angla. Esperanto do ne estas meze de la ekzamenitaj ĉefaj eŭropaj lingvoj, ĉu ĝi tamen ekstervicas?

Mi decidis ekzameni la aferon sur pli ampleksa tereno. Mi trovis tre interesan 21-lingvan materialon sur interreto, la tekstojn de la konstitucipropono de la Eŭropa Unio. Kvankam tiu ĉi materialo ampleksas nur po 35 paĝojn, tamen ĝi havas kelkajn favorajn proprecojn. La tradukadon — certe — oni faris tre zorgeme, ĉar ĝi estas la oficiala dokumento de Eŭropa Unio. Same la esperantlingvan tradukadon faris zorgeme plurlingva internacia grupo. Kaj oni devas sincere danki al la geedzoj Ludoviko Molnár kaj Julianna Farkas, kiuj multon faris por la tradukado kaj al István Mészáros, kiu laboris multe, por ke la materialo estu libere alirebla en interreto.

Sed ĝia plej grava avantaĝo estas, ke la dokumentoj ja tutcerte havas la saman enhavon. Tial la kaŭzo de la diferencoj de la statistikaj indikoj povas esti nur la malsameco de la lingvoj. Ĝia alia avantaĝo estas la multlingveco, ja ĝi aperis en ĉiuj oficialaj lingvoj de la Eŭropa Unio.

Prilaboro de la tekstoj

Mi forigis el la teksto la signojn de dispartigo kaj interpunkciado (indikoj pri alineoj, punkto, komo, ktp.). Mi prilaboris la purajn vortojn per la tabelmanipula programo Excel, tiel determinante la regresan linion.

La kalkulitaj Zipf-koeficientoj montras a) bonan kongruon (R2=0,73) kun la rezultoj de Manaris eĉ kun la datumoj de la hispana kaj b) bonegan kongruon (R2=0,98) sen la datumoj de la hispana:
 
Bujdosó Manaris
Esperanto 0,9632 0,9204
Germana 1,0105 0,9745
Itala 1,0168 0,9947
Hispana 1,0415 0,9255
Franca 1,0423 1,0448
Angla 1,1108 1,1858

Vicordo de lingvoj laŭ la Zipf-leĝo

Mi metis en vicordon la lingvojn laŭ la klino de la Zipf-linio. Tie vi povas vidi la jam menciitan valoron 0,96

Vidu la figuron de la vicordo de la lingvoj laŭ la klino de Zipf-linio.

Sur tiu ĉi figuro estas ĉio perfekta. La baltaj, la slavaj, la ĝermanaj kaj la novlatinaj lingvoj estas unu apud la alia. Estas interesa la loko — proksima al la centro — de la malta (arabdevena) kaj la greka. Mi scivolus pri la analizo de la eŭska, la ivrita kaj la turka, se tiuj iam estus oficialaj lingvoj de EU. Esperanto estas la 11a inter la 21 lingvoj, t.e. ĝi estas en la mezmezo de la vico. Tio estis antaŭvidebla, konante la konstaton de profesoro Pennacchietti: “La interna kohereco de Esperanto klariĝas do per tio, ke ĝi kapablas harmoniigi la postulojn de struktura simpleco, necesajn por vasta internacia uzo, kun la konservado de preciza tipologia stampo, nome tiu de la ĝermanaj kaj slavaj lingvoj de centra Eŭropo”. Mi ne povis reteni min de certa fiereco, eksciinte tion, ke per la Zipfa leĝo mi povis pruvi tiun lingvistikan konstaton.

Sed la vera surprizo estas la loko de la hungara lingvo. Kiel eblas, ke la Zipf-klino de la tri finnugraj lingvoj estas tiom proksimaj unu al alia? Ni ja scias, ke la hungara jam antaŭ plurmil jaroj disiĝis de la du aliaj parencaj lingvoj.

Mi volis trovi la lokon de Esperanto kaj fine mi trovis indikojn pri la parenceco de la finnugraj lingvoj. Mi pensas, ke la Zipf-leĝo estas tre potenca esplora rimedo.

Mi konigis tiun ĉi rezulton en la Kongreso de Asocio de Hungaraj Apliklingvistoj en 2006. Estis obĵeto de Pusztay János, katedrestra profesoro de uralistiko, ke eble la simileco ŝuldiĝas al la influo de la germana al la finnugraj lingvoj. Se oni esplorus paralelajn tekstojn de la ruslandaj kaj neruslandaj finnugraj lingvoj, oni povus decidi pri tiu ĉi afero.

Literaturo

Manaris et al. 2006: Investigating esperanto's statistical proportions relative to other languages using neural networks and Zipf's law. Proceedings of the 2006 IASTED International Conference on Artificial Intelligence and Applications (AIA 2006), February 13-16, Innsbruck, Austria.

Pennacchietti, F. 1981: Ne-hindeŭropaj trajtoj de la internacia lingvo, in: Sprachkybernetik, 1981, Paderborn, p. 95.

Pri la aŭtoro

Bujdosó Iván fariĝis elektra inĝeniero en Budapeŝta Teknika Universitato en 1968. Ekde 1973 ĝis 1994 laboris kiel komputisto ĉe: Elektra Aŭtomatiga Instituto, Hungara Esperanto-Asocio, Tutlanda Elektra Dispona Centro. Akiris instruistan diplomon ĉe ELTE pri lingvo kaj literaturo de Esperanto en 1993. Instruisto de komputaj sciencoj por postabiturientuloj (1994–1999). Ekde 1996 ekstera lekciisto en ELTE por esperantologiaj kaj apliklingvistikaj studentoj, ekde 1999 scienca helpkunlaboranto en ELTE ĝis emeritiĝo en 2006. Partopenis en deko da vortarfaraj projektoj, verkis konferencajn artikolojn, akiris PhD-gradon de doktoreco en 2004 per la disertaĵo: Instruado de la planita lingvo Esperanto.

Vidu pli: geocities.com/bujdosxo

La Ondo de Esperanto. 2008. №4 (162)


Al la indekso pri esperantologio kaj interlingvistiko | Al la ĉefa enirpaĝo