Najväčšia záhada výpočtovej lingvistiky objasnená

Vedeli ste, že v každom jazyku sa najčastejšie používané slovo vyskytuje dvakrát tak často, ako druhé najčastejšie slovo? Tento jav nazývaný "Zipfov zákon" je známy viac ako jedno storočie, ale až doteraz ho vedci nedokázali objasniť. Sander Lestrade, lingvista na univerzite Radboud v Holandsku, v publikácii v PLOS ONE navrhuje nové riešenie tohto slávneho problému.

Zipfov zákon popisuje, ako frekvencia slova v prirodzenom jazyku závisí od jeho pozícii vo frekvenčnej tabuľke. Najčastejšie slovo sa vyskytuje dvakrát tak často ako druhé najčastejšie slovo, trikrát toľko ako nasledujúce slovo a tak ďalej až do najmenej požívaného slova (pozri obrázok 1). Tento zákon je pomenovaný po americkom jazykovedcovi Georgeovi Kingsley Zipfovi, ktorý sa ho prvýkrát pokúsil vysvetliť v roku 1935.


Obrázok 1. Zipfianské rozdelenie frekvencie (vertikálna Y-ová os) a poradie vo frekvenčnom stĺpci (horizontálna X-ová os), prvých sto slov Melvillového Moby Dicka. Spojitá krivka ukazuje predpoveď Zipfovým zákonom a krúžky zobrazujú skutočnú frekvenciu slov v texte.

Najväčšia záhada v oblasti výpočtovej lingvistiky

"Myslím, že je možné povedať, že Zipfov zákon je najväčšou záhadou výpočtovej lingvistiky," hovorí Sander Lestrade, lingvista na Univerzite Radboud v meste Nijmegen v Holandsku.

"Napriek desaťročiam teoretizovania zostával jeho pôvod nepolapiteľný." Lestrade teraz ukazuje, že Zipfov zákon možno vysvetliť interakciou medzi štruktúrou viet (syntax) a významom slov (sémantiky) v texte. Použitím počítačových simulácií dokázal, že ani syntax ani sémantika nepostačujú na vyvolanie Zipfiánskej distribúcie, že syntax a sémantika sa na vysvetlenie navzájom potrebujú.

"V anglickom jazyku, ale aj v holandčine sú len tri členy a desiatky tisíc podstatných mien", vysvetľuje Lestrade. "Pretože používate členy pred takmer každým podstatným menom, členy sa vyskytujú omnoho častejšie ako podstatné mená." Ale to nestačí na vysvetlenie Zipfovho zákona. "V podstatných menách nájdete tiež veľké rozdiely. Slovo "vec" je napríklad oveľa bežnejšie ako "ponorka", a preto sa môže používať častejšie. Ale aby sa skutočne vyskytovalo často, slovo by nemalo byť príliš všeobecné. Ak vynásobíte rozdiely v zmysle slov v rámci slovných tried, s potrebou každej slovnej triedy, nájdete veľkolepú Zipfiánsku distribúciu Zipfian. A toto rozdelenie sa líši len trochu od ideálneho Zipfiánskeho rozdelenia, rovnako ako prirodzený jazyk, ako vidíte na obrázku."

Nielenže sú predpovede založené na Lestradeovom novom modele úplne v súlade s javmi nájdenými v prirodzenom jazyku, no jeho teória platí pre takmer každý jazyk na svete, nielen pre angličtinu alebo holandčinu. Lestrade: "Tento objav ma veľmi potešil a som o správnosti mojej teórii presvedý. Jej potvrdenie však musí prísť od iných jazykovedcov."

Článok: Lestrade S (2017) Unzipping Zipf’s law. PLoS ONE 12(8): e0181987. https://doi.org/10.1371/journal.pone.0181987

Zdroj: www.ru.nl

 

Pridať nový komentár
TOPlist