Корпусная лінгвістыка корпус як асаблівы лінгвістычны рэсурс. Структура корпуса




Дата канвертавання01.05.2016
Памер271.79 Kb.
КОРПУСНАЯ ЛІНГВІСТЫКА


  1. Корпус як асаблівы лінгвістычны рэсурс. Структура корпуса.

Корпусная лінгвістыка – раздзел камп’ютарнай лінгвістыкі, які займаецца распрацоўкай агульных прынцыпаў будавання і выкарыстання лінгвістычных корпусаў (корпусаў тэкстаў) з выкарыстаннем камп’ютарных тэхналогій.

Сёння корпусную лінгвістыку разумеюць як адносна новы падыход да лінгвістыкі, які мае справу з вывучэннем мовы ў рэальным жыцці з дапамогай камп’ютараў.



Галоўная мэта корпуснай лінгвістыкі– лінгвістычнае апісанне моўнай сістэмы, а таксама адлюстраванне моўнага матэрыялу ў выглядзе корпуса тэкстаў, які ў сваю чаргу можа выкарыстоўвацца іншымі лінгвістычнымі дысцыплінамі.

Прадметам корпуснай лінгвістыкі з’яўляюцца тэарэтычныя асновы і практычныя механізмы стварэння і выкарыстання вялікіх масіваў моўных дадзеных, якія прадназначаны для лінгвістычных даследаванняў шырокага кола карыстальнікаў.

Аб’ектам даследавання з’яўляюцца корпусы тэкстаў, якія ўяўляюць сабой зыходны матэрыял для корпуснай лінгвістыкі.

Задачы корпуснай лінгвістыкі:

  1. Стварэнне корпусаў і правядзенне лінгвістычных даследаванняў на іх базе.

  2. Аб’ектыўнае лінгвістычнае апісанне моўнай сістэмы.

Пад назвай лінгвістычны, ці моўны, корпус тэкстаў разумеецца вялікі, прадстаўлены ў электронным выглядзе, уніфікаваны, структураваны, размечаны, філалагічна кампетэнтны масіў моўных дадзеных, які выкарыстоўваецца для рашэння канкрэтных лінгвістычных задач.

У наш час існуе вялікая колькасць азначэнняў паняцця “корпус”.



Корпус – гэта рэпрэзентатаўны збор тэкстаў, звычайна ў машынначытаемым фармаце, які ўключае інфармацыю аб сітуацыі, у якой тэкст быў створаны (такую, як інфармацыя аб аўтары, адрасаце або аўдыторыі).

Корпус – гэта вялікі, структураваны набор тэкстаў (звычайна ў электронным выглядзе), які выкарыстоўваецца для статыстычнага аналізу і праверкі гіпотэз, а таксама праверкі выпадкаў сустракаемасці або абаснавання моўных правіл па пэўным абласцям (Вікіпедыя).

Т. Макэнеры Э.Вільсан даюць наступнае азначэнне: корпус – гэта збор языкавых фрагментаў, атабраных у адпаведнасці з дакладнымі моўнымі крытэрыямі для выкарыстання ў якасці мадэлі мовы.

В.В.Рыкаў вызначае корпус тэкстаў як нейкі збор тэкстаў, у аснове якога ляжыць лагічная задума, лагічная ідэя, якая аб’ядноўвае гэтыя тэксты і ўвасобленая ў правілах арганізацыі тэкстаў у корпус, алгарытме і праграме аналіза корпуса тэкстаў.

У прыведзеных азначэннях падкрэсліваюцца асноўныя рысы сучанага корпуса тэкстаў – мэта (лагічная ідэя), машынначытаемы фармат, рэпрэзентаціўнасць як вынік асобай працэдуры адбору, наяўнасць металінгвістычнай інфармацыі. Стандартызаванае прадстаўленне слоўнага матэрыялу на машынным носьбіце дазвале прымяняць стандартныя праграмы яго апрацоўкі.



Структура корпуса

Тэрмін «корпус» звычайна абазначае збор тэкстаў канечнага фіксаванага памеру, які існуе ў электронным выглядзе.

У паняцце «корпус тэкстаў» таксама ўваходзіць сістэма кіравання тэкставымі і лінгвістычнымі дадзенымі, якую называюць корпусным менеджарам (ці корпус-менеджарам) (англ. corpusmanager). Гэта спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.

Корпусны менеджар – гэта своеасаблівая аперацыйная абалонка лінгвістычнага корпуса, якая ўяўляе сабой цэлы рад магчымасцей для даследавання мовы.

Пошук у корпусе дадзеных дазваляе па любым слове пабудаваць канкарданс – спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу.



Канкардансер – гэта спецыяльная праграма, якая дазваляе аналізаваць вялікія масівы тэкста на прадмет пошуку заканамернасцей выкарыстання слоў і выразаў у мове.

Канкандансер ажыццяўляе пошук зададзенага слова ў корпусе і выдае ў новым акне некалькі фрагментаў сказаў з розных тэкстаў, у якіх выкарыстоўваецца дадзенае слова ці выраз.


2.Корпусная лінгвістыка ў дынамічным аспекце

Першыя лінгвістычныя корпусы тэкстаў з’явіліся ў 60-я гады ХХ ст.

У 1963 г. у Браўнаўскім універсітэце (ЗША) упершыню быў створаны вялікі корпус тэкстаў на машынным носьбіце Браўнаўскі корпус (BrownCorpus). Аўтары корпуса У. Фрэнсіс (W. Francis) і Г. Кучэра (H. Kucera) спраектавалі яго як набор празаічных друкаваных тэкстаў амерыканскага варыянта англійскай мовы (усяго такіх тэкстаў 500, аб’ём кожнага 2000 слоў). Тэксты належалі да пятнаццаці найбольш масавых жанраў англамоўнай друкаванай прозы ЗША. Слова корпус было ў жыта ў значэнні ‘сукупнасць тэкстаў, якая можа лічыцца прадстаўнічай для дадзенай мовы, дыялекту ці іншага падмноства мовы, прызначаная для лінгвістычнага аналізу’.

Браўнаўскі корпус суправаджаўся не толькі пашыраным апісаннем, але і вялікай колькасцю матэрыялаў яго першаснай статыстычнай апрацоўкі – частотны і алфавітна-частотны слоўнік, разнастайныя статыстычныя дадзеныя.

Аўтары корпуса У.Фрэнсіс і Г.Кучэра ставілі за мэту прадставіць корпус тэкстаў, якія адпавядаюць ясным і выразным крытэрыям адбору:

1. Паходжанне і склад тэксту (аўтар павінен быць народжаным носьбітам амерыканскага варыянта англійскай мовы, дыялог павінен займаць менш за палову аб’ёма тэксту);

2. Сінхранізацыя (уключаны тэксты ўпершыню выдадзеныя ў 1961 годзе);

3. Прадуманыя суадносіны колькаснай прадстаўленасці розных жанраў і адбор асобных тэкстаў;

4. Даступнасць для камп’ютарнай апрацоўкі.

Мэта стварэння Браўнаўскага корпуса – забяспечыць сістэмнае вывучэнне асобных жанраў пісьмовай англійскай мовы. З’яўленне Браўнаўскага корпуса выклікала агульную зацікаўленасць і гарачыя дыскусіі. Перш за ўсё яны закранулі прынцыпы адбору тэкстаў і шэраг задач, якія патэнцыяльна вырашаюцца з дапамогай такога корпуса.

Неўзабаве з’явіўся брытанскі аналаг Браўнаўскага корпуса Ланкастэрскі корпус (Ланкастэрска-Осла-Бергенскі) англійскай мовы (Lancaster-Oslo-BergenCorpus, LOB), названы, як і Браўнаўскі, паводле месца яго стварэння. Корпус уключаў 1 млн. слоў брытанскага варыянта англійскай мовы (500 тэкстаў па 2000 слоў). Яго складальнікі амаль дакладна прытрымліваліся прынцыпаў, на якіх грунтаваўся Браўнаўскі корпус.

Браўнаўскі і Ланкастэрскі – гэта два самыя раннія вялікія корпусы амерыканскага і брытанскага варыянтаў англійскай мовы, якімі карыстаюцца і зараз шматлікія даследчыкі англійскай мовы.


У першай палове 90-х гадоў ХХ ст. корпусная лінгвістыка канчаткова сфарміравалася як асобны накірунак навукі аб мове.

Сярод сучасных корпусаў англійскай мовы найбольш вядомы Брытанскі нацыянальны корпус (BritishNationalCorpus, BNC, адрас: www.sara.natcorp.ox.ac.uk), які з’яўляецца ўзорам нацыянальнага моўнага корпуса. Агульны аб’ём корпуса 100 млн словаўжыванняў. Ён складаецца з падкорпуса пісьмовай англійскай мовы і падкорпуса размоўнай англійскай мовы. Корпус складаецца толькі са слоў сучаснай англійскай мовы, таму адлюстроўвае стан англійскай мовы (яе брытанскага варыянта) 2-ой паловы XX ст. Распрацаваны ён быў у Оксфардскім універсітэце пры ўдзеле Ланкастэрскага ўніверсітэта і Брытанскай бібліятэкі. Праца над стварэннем корпуса працягвалася з 1991 па 1994 год.

Падкорпус, які прадстаўляе пісьмовую англійскую мову, складае 90 % усяго корпуса і ўключае ў сябе газеты, часопісы, перыядычныя навуковыя выданні для розных узростаў, папулярную навуковую фантастыку, мастацкую літаратуру, школьныя сачыненні і інш. Тэксты, прадстаўленыя тут адбіраліся па трох асноўных крытэрыях: час напісання, галіна, якую гэты тэкст апісвае і тып выдання. Па часе ўсе тэксты належаць прыкладна да аднаго перыяду, пачынаючы з 1975 года. 75 % тэкстаў былі ўзяты з інфармацыйных выданняў (навука, мастацтва, фінансы, сацыялогія, камерцыя і інш.). 25 % тэкстаў належыць да галіны забаўляльнай літаратуры.

Падкорпус вуснай мовы складае 10 % ўсяго корпуса і ўключае ў сябе маўленне людзей розных узростаў, якія дабравольна згадзіліся ўдзельнічаць у праекце (усяго было задзейнічана 124 дабравольцы, якія насілі з сабой дыктафоны, на якія запісвалася іх размовы). Яны пражываюць у розных рэгіёнах Велікабрытаніі і належаць да розных сацыяльных класаў. Дабравольцы былі атабраны так, што сярод іх была прыкладна роўная колькасць мужчын і жанчын розных узроставых і сацыяльных груп. Магнітныя запісы былі апрацаваны, а тэксты запісаны звычайнай англійскай арфаграфіяй. Гэтыя тэксты зараз выкарыстоўваюцца як аснова вывучэння характару вуснага маўлення.

Апошняя на сённяшні дзень рэдакцыя Брытанскага нацыянальнага корпуса выйшла ў свет у 2007 г. 90% тэкставай базы корпуса складаюць узоры літаратурнай пісьмовай мовы, 10% – транскрыпты гутарковага маўлення.

Сярод мноства праектаў амерыканскіх корпусаў адзіным праектам з адкрытым доступам да базы дадзеных з’яўляецца Корпус сучаснай амерыканскай англійскай мовы (CorpusofContemporaryAmericanEnglish, COCA, адрес: www.americancorpus.org), агульны аб’ём якога 410 млн словаўжыванняў са 160 тыс. тэкстаў. Стваральнікам корпуса з’яўляецца Марк Дэйвіс (MarkDavies), прафесар корпуснай лінгвістыкі Універсітэта Брыгама Янга. Апошняе абнаўленне корпуса праводзілася летам 2010 г. 85 млн. токенаў складаюць транскрыпты вуснага маўлення, узятыя з электронных мас-медыа; 81 млн. – мастацкая літаратура; 86 млн. – папулярныя часопісы; 81 млн. – газеты і 81 млн. – акадэмічныя выданні.

Адным з найбольш вядомых корпусаў славянскіх моў з’яўляецца Чэшскі нацыянальны корпус (ЧНК). Гэта сінхранічны марфалагічна размечаны корпус сучаснай чэшскай мовы. Стварэннем корпуса займаецца Інстытут Чэшскай нацыянальнай мовы пад кіраўніцтвам прафесара М. Чэрмака. Інстытут быў створаны на базе філасофскага факультэта Карлава ўніверсітэта ў Празе ў 1994 годзе. Масіў тэкстаў на чэшскай мове, назапашаны ў корпусе, дзеліцца на сінхранічную і дыяхранічную часткі. Сінхранічная частка ў сваю чаргу складаецца з пісьмовых тэкстаў (больш за 100 млн. словаўжыванняў), размоўных тэкстаў (750 тыс. словаўжыванняў) і дыялектная мова. Аб’ём дыяхранічнай часткі – 1750 словаўжыванняў. Наяўнасць сінхранічнага і дыяхранічнага корпуса дазваляе прасачыць змяненне семантыкі слова. Акрамя таго, як асобны фонд ствараецца Пражскі размоўны корпус.

Пры фарміраванні ЧНК вялікая ўвага ўдзялялася пытанню рэпрэзентатыўнасці корпуса. Было прынята рашэнне, што асноўную частку корпуса складуць тэксты 1990-2000 гадоў з дадатковай рэтраспектывай, уяўляючай сабой творы чэшскай літаратуры да 1950 года. Жанравая і тэматычная структура корпуса выглядае наступным чынам: 85 % складаюць інфармацыйныя тэксты, з іх 60 % публіцыстычныя і 25 % навуковыя. І толькі 15 % складаюць мастацкія тэксты.

У Германіі з’яўленне Браўнаўскага корпуса дало штуршок распрацоўцы LIMAS-корпуса, які складаецца з 500 падкорпусаў па 2000 словаўжыванняў кожны. У аснову жанравай класіфікацыі LIMAS-корпуса пакладзена іэматычная класіфікацыя прадметных галін (усяго іх 33), найбольш значныя: рэлігія, культура, палітыка, эканоміка, літаратура, мастацтва і інш. LIMAS-корпус лічыцца самым прадстаўнічым для сучаснай нямецкай мовы.

Самай поўнай крыніцай для вывучэння рускай мовы сёння з’яўляецца Нацыянальны корпус рускай мовы (адрас: www.ruscorpora.ru) – 500 млн словаўжыванняў. Ён размешчаны ў сетцы Інтэрнэт з 2004 года і разлічаны на тых, хто займаецца лінгвістычнымі даследаваннямі, вывучае або выкладае рускую мову. Непасрэдная праца па стварэнню гэтага корпуса пачалася ў 2000 годзе, а ў красавіку 2004 года ён быў размешчаны ў інтэрнэце.




  1. Тыпалогія лінгвістычных корпусаў

Нягледзячы на разнастайнасць корпусаў тэкстаў, можна выдзеліць два асноўныя спосабы дзялення іх на класы:

1) гэта супрацьпастаўленне корпусаў, якія адносяцца да ўсёй мовы (часта да мовы пэўнага перыяда), корпусам, якія адносяцца да якой-небудзь падмовы (жанр, стыль, мова пэўнай узроставай ці сацыяльнай групы, мова пісьменніка ці вучонага і да т.п.);

2) падзел корпусаў па тыпу лінгвістычнай разметкі. Нягледзячы на наяўнасць розных тыпаў разметкі, большасць рэальна існуючых корпусаў адносяцца да корпусаў марфалагічнага або сінтаксічнага тыпу (апошнія ў англамоўнай літаратуры называюць treebanks, што можна перакласці як «банкі сінтаксічных структур»). Пры гэтым трэба адзначыць, што корпус з сінтаксічнай разметкай наяўна ці не ўключае ў сябе і марфалагічныя характарыстыкі лексічных адзінак.

Увогуле існуе вялікая колькасць розных тыпаў корпусаў. Іх разнастайнасць абумоўлена шматаспектнасцю даследчых і прыкладных задач, для рашэння якіх яны ствараюцца, і рознымі крытэрыямі класіфікацыі. У залежнасці ад пастаўленых мэт і класіфікацыйных прыкмет, можна вызначыць розныя тыпы корпусаў (гл. табліцу).



Класіфікацыякорпусаў

Прыкмета

Тыпы корпусаў

Тып моўных дадзеных

Пісьмовыя

Вусныя


Змешаныя

Мова тэкстаў

Англійская

Руская


Чэшская іг.д.

«Паралельнасць»

Аднамоўныя

Двухмоўныя

Шматмоўныя


«Літаратурнасць»,

спецыфічнасць

Літаратурныя

Дыялектныя

Размоўныя

Тэрміналагічныя

Змешаныя


Мэта стварэння

Шматмэтавыя

спецыялізаваныя



Жанр

Мастацкія

Фальклорныя

Драматычныя

Публіцыстычныя



Даступнасць

Свабодна даступныя

Камерцыйныя

Закрытыя


Прызначэнне

Даследчыя

Ілюстрацыйныя



Дынамічнасць

Дынамічныя (маніторныя)

Статычныя



Разметка

Размечаныя

Неразмечаныя



Характар

разметкі

Марфалагічныя

Сінтаксічныя

Семантычныя

Прасадычныя і да т.д.



Аб’ём тэкстаў

Поўнатэкставыя

«Фрагментнатэкставыя»



Храналагічны аспект

Сінхранічныя

Дыяхранічныя



«Супольнасць»

Агульныя

Аднаго пісьменніка



Структура

Цэнтральныя іархіўныя

Ядзерныя і перыферыйныя


Па тыпу моўных дадзеных корпусы дзеляцца на пісьмовыя, вусныя і змешаныя. У пісьмовых корпусах вусная мова не прадстаўлена (напрыклад, Браўнаўскі корпус), у вусных корпусах прадстаўлена толькі вуснае маўленне, змешанымі звычайна з’яўляюцца нацыянальныя корпусы, якія прадстаўляюць мову ў пэўны перыяд часу (НКРЯ, BNC).

Па крытэрыюмова тэкстаў корпусы дзеляцца на англійскія, чэшскія, рускія, беларускія і г.д.

Па крытэрыю паралельнасці корпусы дзеляцца на аднамоўныя, двухмоўныя і шматмоўныя. У аднамоўных корпусах супастаўляюцца дыялекты, варыянты адной мовы. Напрыклад, такія разнавіднасці англійскай мовы, як брытанскі і амерыканскі варыянт. Двухмоўныя і шматмоўныя корпусы аб’ядноўваюць тэксты з адной і той жа тэматычнай галіны, напісаныя на адной або некалькі мовах. Такія корпусы дапамагаюць у працы з тэрміналогіяй і часта выкарыстоўваюцца перакладчыкамі. Двухмоўныя або шматмоўныя корпусы могуць уяўляць сабой вялікую колькасць тэкстаў-арыгіналаў і тэкстаў-перакладаў гэтых зыходных тэкстаў. Такі корпус уяўляе сабой карысны матэрыял для правядзення параўнальна-супастаўляльных даследаванняў.

Па крытэрыю літаратурнасці (спецыфічнасці) выдзяляюцца літаратурныя, дыялектныя, размоўныя, тэрміналагічныя і змешаныя корпусы.

Прыкладам размоўнага корпуса можа служыць корпус Один Речевой День, які распрацоўваецца ў Санкт-Пецярбурзе. Прыкладам тэрміналагічнага корпуса можа быць корпус тэкстаў па корпуснай лінгвістыцы, на базе якога распрацоўваецца тэрміналагічны слоўнік непасрэдна на жывым тэкставым матэрыяле.

Па мэце стварэння корпусы дзеляцца на шматмэтавыя і спецыялізаваныя. Шматмэтавыя корпусы уключаюць тэксты розных жанраў, (напрыклад, нацыянальныя корпусы), а спецыялізаваныя могуць абмяжоўвацца адным жанрам ці групай жанраў.

Корпусы тэкстаў класіфікуюцца таксама па жанрам і падзяляюцца на літаратурныя, фальклорныя, публіцыстычныя і інш. Прыкладам публіцыстычнага корпуса можа служыць Камп’ютарны корпус рускіх газет канца ХХ ст.

Важным крытэрыям для карыстальніка корпуса з’яўляецца яго даступнасць. Адпаведна выдзяляюць свабоднадаступныя, закрытыя і камерцыйныя корпусы. Свабоднадаступныя корпусы дазваляюць у любы час у рэжыме on-line мець доступ да ўсіх тэкстаў корпуса ў поўным аб’ёме. У некаторых выпадках свабодны доступ можа прадстаўляцца толькі да часткі корпусных дадзеных. У рабоце з камерцыйнымі корпусамі трэба купляць права іх выкарыстання on-line або копію на кампакт-дыску. Перад гэтым можна азнаёміцца з анатацыяй да корпуса, папрацаваць з корпусам у пробным рэжыме, але, як правіла, не з усімі тэкстамі, а толькі з невялікім па аб’ёме падкорпусам. Закрытыя корпусы ствараюцца для вузка спецыфічных мэт і не прызначаны для публічнага выкарыстання.

Па прызначэнню выдзяляюць даследчыя і ілюстрацыйныя корпусы. Даследчыя корпусы ствараюцца з мэтай вывучэння розных аспектаў функцыянавання мовы. Гэты тып корпусаў арыентаваны на шырокі клас лінгвістычных задач. Ілюстрацыйныя корпусы ствараюцца пасля правядзення навуковага даследавання: іх мэта не столькі выявіць новыя факты, колькі пацвердзіць і абгрунтаваць ужо атрыманыя вынікі. Яны служаць для выдзялення з іх лінгвістычных прыкладаў. Якія пацвярджаюць тыя або іншыя моўныя факты.

Крытэрый дынамічнасць падраздзяляе корпусы на дынамічныя і статычныя. Першапачаткова корпусы тэкстаў ствараліся як статычныя. Яны адлюстроўвалі пэўны часавы стан моўнай сістэмы. Статычныя корпусы ўтрымліваюць тэксты нейкага невялікага часавага прамежку. Тыповымі прадстаўнікамі гэтага віду корпусаў з’яўляюцца аўтарскія корпусы – збор тэкстаў пісьменнікаў. Але значная колькасць чыста лінгвістычных і не толькі лінгвістычных задач патрабуе выяўлення моўных феноменаў на часавай шкале. Напрыклад, змены значэння слоў, частаты выкарыстання тых або іншых канструкцый. Для гэтага патрэбны дынамічныя корпусы тэкстаў. Дынамічныя корпусы называюць таксама маніторнымі ці маніторынгавымі. Іх асноўная мэта – збіраць (складзіраваць) тэксты ў памяці камп’ютара. Гэта значыць, што праз пэўны прамежак часу павінна ажыццяўляцца абнаўленне або дапаўненне корпуса тэкстаў. Корпусы, якія пастаянна папаўняюцца, дазваляюць лексікографам сачыць за новымі словамі, якія з’яўляюцца ў мове, або за ўжо існуючымі словамі, якія мяняюць сваё значэнне. Дынамічныя корпусы тэкстаў выкарыстоўваюцца для правядзення розных дыяхранічных даследаванняў.

Па крытэрыю разметка корпусы дзеляцца на размечаныя і неразмечаныя. У размечаным корпусе словам або сказам прысвайваюцца меткі або тэгі ў залежнасці ад характару разметкі корпусы падзяляюцца на марфалагічныя, сінтаксічныя, семантычныя, прасадычныя і інш.

Па крытэрыю аб’ём тэкстаў выдзяляюць поўнатэкставыя і фрагментнатэкставыя корпусы. Напрыклад, Браўнаўскі і Ланкастэрскі корпусы павінны былі дакладна адпавядаць пэўным крытэрыям, адным з якіх была даўжыня тэкста, роўная 2000 слоў. Але не ўсе тэксты могуць дакладна адпавядаць такім крытэрыям. Значыць, гэтыя корпусы з’яўляюцца фрагментатэкставымі. Да поўнатэкставых адносяцца некаторыя корпусы тэкстаў пэўнага аўтара.

Паводле храналагічнага крытэрыя корпусы дзеляцца на сінхранічныя і дыяхранічныя. Сінхранічныя адлюстроўваюць мову на пэўным этапе развіцця, дыяхранічныя – у розныя перыяды.




  1. Разметка як навуковая дзейнасць. Віды разметкі.

Сярод спецыяльных праграм для апрацоўкі мовы асаблівае месца займаюць праграмы аўтаматычнай разметкі. Разметка корпусаў уяўляе сабой трудаёмкую аперацыю, асабліва ўлічваючы вялікія памеры сучасных корпусаў тэкстаў. Для некаторых відаў разметкі існуюць розныя праграмы, але ёсць і такія віды разметкі, дзе асноўная частка працы праводзіцца ўручную.

Для рашэння розных лінгвістычных задач аднаго масіву тэкстаў мала. Неабходна, каб тэксты змяшчалі рознага роду дадатковую лінгвістычную і экстралінгвістычную інфармацыю. Так у корпуснай лінгвістыцы ўзнікла ідэя размечанага корпуса.



Разметка (tagging, annotation) заключаецца ў прыпісванні тэкстам і іх кампанентам спецыяльных метак (тэгаў). Тэгі дзеляцца на ўласна лінгвістычныя, якія апісваюць лексічныя, граматычныя і іншыя характарыстыкі элементаў тэксту, а таксама знешнія, экстралінгвістычныя (звесткі аб аўтары і звесткі аб тэксце). Адпаведна выдзяляюць два асноўныя тыпы разметкі: экстралінгвістычную і лінгвістычную.

Экстралінгвістычная разметка (метаразметка)– гэта інфармацыя, якая прыпісана ў корпусе кожнаму ўключанаму тэксту. Метаразметка ўтрымлівае інфармацыю аб аўтары тэксту (яна можа ўключаць не толькі яго імя, але такама ўзрост, пол, гады жыцця), а таксама назве тэксту, году і месцы выдання, жанру, тэматыцы і інш. Прыведзеная інфармацыя называецца яшчэ “інтэлектуальнай” разметкай. Акрамя таго метаразметка ўключае фармальную або структурную разметку – гэта раздзел, глава, частка, абзац, сказ (структурныя адзінкі тэксту), а таксама тэхніка-тэхналагічную разметку – кадзіроўка, дата апрацоўкі, выканаўцы, крыніцы электроннай версіі.

Тыпы лінгвістычнай разметкі

Сярод лінгвістычных тыпаў разметкі выдзяляюцца:



  1. Марфалагічная разметка.

  2. Сінтаксічная разметка.

  3. Семантычная.

  4. Анафарычная.

  5. Прасадычная.

Марфалагічная або часцінамоўная разметка

Марфалагічная разметка ўключае не толькі прыкмету часціны мовы, але і прыкметы граматычных катэгорый, уласцівых гэтай часціне мовы. Гэта асноўны тып разметкі: па-першае, большасць вялікіх корпусаў з’яўляюцца марфалагічна размечанымі корпусамі, па-другое, марфалагічны аналіз разглядаецца як аснова для далейшых форм аналізу – сінтаксічнага і семантычнага, па-трэцяе, поспехі ў камп’ютарнай марфалогіі дазваляюць аўтаматычна размячаць корпусы вялікіх памераў.

Элементы дадзеных марфалагічнай разметкі ўключаюць:

  • лему (слоўнікавую форму)

  • прыкметы часціны мовы

  • прыкметы граматычных катэгорый

У выніку работы праграм аўтаматычнага марфалагічнага аналізу кожнай лексічнай адзінцы прыпісваюцца граматычныя характарыстыкі, у якія ўваходзяць часціна мовы, лема (слоўнікавая форма) і набор грамем (напрыклад, род, лік, склон, адушаўлёнасць /неадушаўлёнасць, пераходнасць і да т.п.).

Марфалагічны стандарт нацыянальнага корпуса рускай мовы

Марфалагічная інфармацыя, якая прыпісваецца адвольнаму слову ў тэксце складаецца з 4 памет:



  1. Лексема, якой належыць словаформа (ўказваецца слоўнікавы запіс дадзенай лексемы і яе прыналежнасць да пэўнай часціны мовы).

  2. Граматычныя прыкметы дадзенай часціны мовы або класіфікацыйныя характарыстыкі (напрыклад, род для наз., пераходнасць для дзеяслова).

  3. Граматычныя прыкметы дадзенай словаформы (напрыклад, склон для наз., лік для дзеяслова).

  4. Інфармацыя аб нестандартных граматычных формах.


Прыклад марфалагічнай разметкі





Звонили
к
вечерне


.


>Торжественный
гул
колоколов


……………………...


Сінтаксічная разметка з’яўляецца вынікам сінтаксічнага аналізу, ці парсінга (англ. parsing), які выконваецца на аснове марфалагічнага аналізу. Гэты від разметкі апісвае сінтаксічныя сувязі паміж лексічнымі адзінкамі і разнастайнымі сінтаксічнымі канструкцыямі (напрыклад, даданы сказ, дзеяслоўнае словазлучэнне і да т.п.). У выніку работы праграм аўтаматычнага сінтаксічнага аналізу фіксуюцца сінтаксічныя сувязі паміж словамі і словазлучэннямі, а сінтаксічным адзінкам прыпісваюцца суадносныя характарыстыкі (тып сказа, сінтаксічная функцыя і да т.п.).

Сінтаксічная разметка ўключае:



  • фіксацыю сінтаксічных сувязей

  • прыпісванне сінтаксічным адзінкам адпаведных характарыстык (тып сказа, сінтаксічная функцыя, член сказа і інш.).

Парсінг (сінтаксічны аналіз) – гэта працэс супастаўлення лінейнай паслядоўнасці лексем (слоў, токенаў) мовы з із фармальнай граматыкай. Вынікам з’яўляецца “дерево зависимости” або сінтаксічнае дрэва.

Семантычная разметка абазначае семантычныя катэгорыі, да якіх адносіцца дадзенае слова ці словазлучэнне, і больш вузкія падкатэгорыі, якія вызначаюць спецыфіку яго значэння. Напрыклад, у назоўнікаў маюцца класы: “Расліны”, “Жывёлы”, у прыметнікаў “Якасці чалавека”, “Памер”, “Колер”.

Семантычная разметка ўключае:

  • значэнне слоў;

  • катэгарызацыю слоў (разрады);

  • тэматычныя класы;

  • разрашэнне аманіміі і сінаніміі;

  • дэрывацыйныя характарыстыкі.

Семантычная разметка ў НКРЯ уключае 3 групы памет:

  1. разрад (напрыклад, агульны, уласны для наз, зваротны, указальны для займ.)

  2. лексіка-семантычныя характарыстыкі (тэматычныя класы лексем)

  3. Дэрывацыйныя характарыстыкі (словаўтваральныя).


Анафарычная разметка фіксуе рэферэнцкія сувязі, напрыклад, займеннікавыя;

Прасадычная разметка. У прасадычных корпусах выкарыстоўваюць меткі, якія апісваюць націск і інтанацыю. У корпусах вуснага размоўнага маўлення прасадычная разметка часта суправаджаецца так званай дыскурснайразметкой, якая служыць для абазначэння паўз, паўтораў, агаворак, і г.д.

Існуюць і іншыя тыпыразметкі.


5.Спецыяльныя віды корпусаў тэкстаў

Спецыяльныя корпусы тэкстаў – гэта сбалансаваныя, звычайна невялікія па памеры (некалькі тысяч словаўжыванняў), падпарадкаваныя пэўнай даследчай задачы корпусы тэкстаў, якія прызначаны для выкарыстання пераважна ў мэтах, што адпавядаюць задуме іх складальніка.

Да спецыяльных відаў корпусаў адносяцца паралельныя корпусы, корпусы вуснага маўлення, гістарычныя і корпусы тых, хто навучаецца.

Асаблівым тыпам корпуса з’яўляецца паралельны корпус, у якім тэксту на адной мове супастаўлены яго пераклад на другой мове

Паралельныя корпусы можна падзяліць на 2 асноўныя тыпы:



  1. Корпусы, якія прадстаўляюць вялікую колькасць тэкстаў-арыгіналаў, напісаных на якой-небудзь зыходнай мове, і тэкстаў-перакладаў гэтых зыходных тэкстаў на адну або некалькі іншых моў.

  2. Корпусы, якія аб’ядноўваюць тэксты з адной і той жа тэматычнай галіны, напісаныя на дзвюх або некалькіх мовах.

І тыя, і другія корпусы ствараюцца і выкарыстоўваюцца для параўнальных даследаванняў моў у галіне лексікалогіі, граматыкі, стылістыкі і г.д., а таксама ў мэтах распрацоўкі эфектыўных метадаў перакладу, у тым ліку і машыннага.

Паралельныя корпусы тэкстаў дазваляюць атрымаць даволі вялікі аб’ём інфармацыі. З іх дапамогай можна:



  1. Ствараць двухмоўныя і шматмоўныя перакладныя слоўнікі.

  2. Ствараць і папаўняць слоўнікі машыннага перакладу.

  3. Здымаць полісемію лексічных адзінак.

  4. Перакладаць тэрміналагічныя і фразеалагічныя адзінкі тэкста.

  5. Поўнасцю ажыццяўляць машынны пераклад у рамках новых сістэм машыннага перакладу, якія называюцца сістэмамі з перакладчыцкай памяццю.

У працэсе перакладу такая сістэма імкнецца адшукаць сказ, які перакладаецца, або яго фрагмент у масіве зыходных паралельных тэкстаў.

Паміж адзінкамі арыгінальнага і перакладнога тэкстаў з дапамогай спецыяльнай працэдуры ўстанаўліваецца адпаведнасць. Гэтая працэдура называецца выраўніваннем. А тэксты адпаведна выраўненымі.

Паралельны корпус ёсць у Нацыянальным корпусе рускай мовы. Тут прадстаўлены англа-рускі, руска-англ., нямецка-рус, рус.-ням., французска-рус., рус.-франц., іспанска-рус., рус.-ісп., бел.-рус, рус.-бел, польска-рус., руска-польскі, укр.-рус., рус.-укр., італьянска-рус., рус.-іт. і шматмоўны падкорпусы.

У Мінскім дзяржаўным лінгвістычным універсітэце створаны невялікія па аб’ёму паралельныя корпусы тэкстаў: руска-бел, англа-бел. і нямецка-бел.



Корпус вуснага маўлення – гэта корпус, створаны на аснове расшыфроўкі магнітафонных запісаў публічнага і асабістага маўлення.

Адным з першых корпусаў вуснага маўлення быў Лонданска-Лундскі корпус, які быў распрацаваны ў рамках праекта “Агляд ужывання англійскай мовы”. Мэта гэтага праекта заключалася ў тым, каб па магчымасці зафіксаваць асаблівасці граматычнай сістэмы англійскай мовы ў маўленні дарослага адукаванага носьбіта. Праект пачаў распрацоўвацца з 1960 года пад кіраўніцтвам Р.Квірка ў Лонданскім універсітэцкім каледжы. Аб’ём корпуса складаў 1 млн. словаўжыванняў. Тэксты вуснай мовы былі прадстаўлены запісамі радыёперадач, паседжанняў афіцыйных структур, а таксама нефармальных гутарак. Машынны варыянт корпуса ствараўся ў Лундскім універсітэце (Швецыя) і быў гатовы да выкарыстання ў 1979 годзе. Менавіта корпус вуснай мовы Лондан-Лунд быў адным з першых машынначытаемых корпусаў. Ён складаўся з 34 тэкстаў, што прадстаўлялі тайна запісаныя размовы, якія былі апублікаваны таксама ў кнізе Дж. Свартвіка і Р.Квірка “Корпус англійскай размовы” (1980). Гэтая кніга была шырока вядомая і карысная ў той час, калі камп’ютарныя корпусы не былі шырока распаўсюджаны. Лонданска-Лундскі корпус доўгі час заставаўся асноўнай крыніцай для камп’ютарнага даследавання размоўнай англійскай мовы. На падставе корпуса была падрыхтавана і выпушчана ў 1985 годзе поўная граматыка англійскай мовы.

Падкорпус вуснага маўлення існуе таксама ў Брытанскім нацыянальным корпусе. Але ён складае ўсяго 10 % усяго корпуса і ўключае ў сябе маўленне людзей розных узростаў, якія дабравольна згадзіліся ўдзельнічаць у праекце.

У складзе Нацыянальнага корпуса рускай мовы таксама ёсць падкорпус вуснага маўлення, які ўключае магнітафонныя запісы публічнага і асабістага маўлення. Ён падзяляецца на наступныя тыпы: публічнае маўленне (64,3 %), непублічнае маўленне (8,1 %) і мова кіно (27,6 %).

У якасці яшчэ аднаго прыклада корпуса вуснага маўлення можна разгледзець гукавы корпус, створаны ў інстытуце філалагічных даследаванняў факультэта філалогіі і мастацтва Санкт-Пецярбургскага дзяржаўнага ўніверсітэта – Один Речевой день. Гэта гукавы корпус сучаснай рускай мовы паўсядзённых зносін. Корпус ствараецца з мэтай вывучэння рэальнага жывога маўлення носьбітаў мовы ў натуральных умовах камунікацыі. І ў гэтым яго адрозненне ад іншых корпусаў вуснага маўлення, запісаных у лабараторыях і другіх спецыяльных умовах. Першая серыя гуказапісаў пачалася ў 2007 годзе. Для гэтага была атабрана група інфармантаў з 30 чалавек, якія прадстаўлялі розныя сацыяльныя і ўзроставыя катэгорыі насельніцтва Санкт-Пецярбурга. Інфарманты на працягу сутак запісвалі ўсе свае моўныя кантакты (з калегамі, сябрамі, знаёмымі і незнаёмымі людзьмі). Затым гэтыя запісы былі апрацаваны спецыялістамі. Так, аналіз лексікі паказаў, што самае часта ўжываемае слова – займеннік я, затым ідуць словы нет, вот, ну, да. Часта ўжываюцца такія формы і канструкцыі, як блин, типа, челюсть отвисла, крышняк едет, дать на лапу; лоховоз.

Гукавы корпус дазваляе вывучаць жывоепаўсядзённае маўленне носьбітаў мовы ў розных камунікатыўных сітуацыях і на ўсіх лінгвістычных узроўнях. Па меры збору інфармацыя перадаецца ў вусны падкорпус НКРМ.

Невялікая колькасць корпусаў вуснага маўлення тлумачыцца цяжкасцю іх стварэння. Вуснае маўленне неабходна нейкім чынам зафіксаваць, напрыклад, з дапамогай магнітнай ленты або відэакасеты. Затым неабходна перадаць яго літарамі (затранскрыбіраваць), што з’яўляецца вельмі цяжкай працай.

Гістарычны корпус – гэта корпус, які ўключае тэксты, якія адлюстроўваюць розныя гістарычныя перыяды развіцця мовы.

Прыкладам гістарычнага корпуса можа служыць Санкт-Пецярбургскі Корпус агіяграфічных тэкстаў XVI –XVIIст. (СКАТ), даступны на сайце htt: // proiect.phil/pu.ru/ / skat. Агіяграфічныя тэксты – багаслоўскія тэксты (жыціі святых).

СКАТ – гэта электронны корпус тэкстаў па памятніках старажытнарускай агіяграфічнай літаратуры, створаны на кафедры матэматычнай лінгвістыкі філалагічнага факультэта Санкт-Пецярбургскага дзяржаўнага ўніверсітэта. Мова агіяграфічных твораў у многім абумовіла лёс і характар рускай літаратурнай мовы

XV-XVIIcт. Адлюстраванне гэтай мовы з’яўляецца асноўнай задачай ствараемага корпуса тэкстаў рускіх жыцій таго часу. У 2006 годзе аб’ём гэтага корпуса складаў 500 тыс. словаўжыванняў.

Гістарычны падкорпус ёсць у складзе НКРЯ. Гэта корпус тэкстаў XV-XVIIcт., аб’ём якога складае з млн. словаўжыванняў. У корпус увайшлі літаратурныя творы, летапісы, жыціі, дзелавыя граматы, бытавая перапіска.

Корпус тэкстаў, прызначаны для навучання (обучающий).

Прыкладамтакога корпуса можа служыць Корпус англійскіх тэкстаў пецярбургскіх школьнікаў, створаны на кафедры прыкладной лінгвістыкі Расійскага гуманітарнага педагагічнага ўніверсітэта імя Герцэна. Асноўнай мэтай яго стварэння было даследаванне асаблівасцей англійскіх тэкстаў, якія ствараюць рускія школьнікі. Збор матэрылу для корпуса ажыццяўляўся ў школах Санкт-Пецярбурга ў рамках педагагічнай практыкі студэнтаў. У якасці інфарматараў (аўтараў тэкстаў) выступілі 78 навучэнцаў 9-11 класаў, якія вывучаюць англійскую мову. Тып гэтага корпуса змешаны. Ён уключае як вусныя тэксты (дыялогі, маналогі), так і пісьмовыя (сачыненні, эсэ). У выніку былі сабраны англійскія тэксты, якія выкарыстоўваюцца для навучання англійскай мове. Размер корпуса 38 тыс. словаўжыванняў. Гэта размечаны маніторны корпус, у якім выкарыстоўваецца сінтаксічная разметка і разметка памылак. Даследаванні на базе корпуса паказалі, што школьнікі аддаюць перавагу простым структурам і мадэлям стандартнай англійскай мовы, што прыводзіць да беднасці слоўніка носьбітаў мовы.

Спецыяльныя корпусы тэкстаў, нягледзячы на невялікі аб’ём, не менш запатрабаваны, чым нацыянальныя. Яны больш арыентаваны на філалогію, лексікаграфію і лінгвістыку.



  1. Вэб як корпус

Інтэрнэт – вялікі даведнік, сусветная бібліятэка, сусветны архіў тэкставай інфармацыі.

Інфармацыйнае напаўненне сеткі Інтэрнэт (вэб-прасторы) можа разглядацца як вялікі шматмоўны корпус. Галоўны матэрыял лінгвістычнага аналізу любога корпуса -- гэта мова, зафіксаваная ў выглядзе пэўных тэкстаў. У інтэрнэце тэксты прадстаўлены ў вялікім аб’ёме і разнастайнасці, акрамя таго яны непасрэдна даступныя для машыннай апрацоўкі. Гэты факт прадстаўляе для лінгвістаў вялікую каштоўнасць, таму што перавод тэкстаў у машынную форму і стварэнне корпусаў патрабуе часавых і матэрыяльных выдаткаў.

Тэкставыя масівы інтэрнэта шырока выкарыстоўваюцца ў якасці крыніцы дадзеных для фарміравання корпусаў. Таксама тэксты, прадстаўленыя ў інтэрнэце, выкарыстоўваюцца ў якасці тэкставага матэрыялу для разнастайных праграм аналізу і апрацоўкі тэкставай інфармацыі.

У той жа час вэб-прастора можа выкарыстоўвацца непасрэдна як корпус. Зразумела, што ні адзін корпус тэкстаў нельга параўнаць па рэпрэзентатыўнасці моўнага матэрыялу з вэбам, куды ўключаюцца матэрыялы і іншых інэрнэт-рэсурсаў. Колькасць вэб-старонак увесь час павялічваецца. Пры гэтым узнікае пытанне аб сбалансаванасці вэб-корпуса. У корпус тэкстаў матэрыял звычайна адбіраецца. У вэб-корпусе такі адбор не праводзіцца, тут можна знайсці любыя тыпы тэкстаў, таму практычна немагчыма вызначыць сбалансаванасць дадзенага корпуса.

Пры выкарыстанні вэб-прасторы як корпуса ролю корпусных менеджараў выконваюць пошукавыя сістэмы. Існуе6 вялікая колькасць такіх сістэм, якія адрозніваюцца адна ад другой мовай запытаў, дызайнам, сервісам і іншымі асаблівасцямі. Да ліку такіх пошукавых сістэм вербальнага тыпу адносяцца наступныя: Coogle, Яндэкс (Яndex), Рамблер (Rambler), Апорт (Aport), AltaVistaі інш.

У складзе любой пошукавай сістэмы можна выдзеліць тры асноўныя часткі:



  1. Робат – падсістэма, якая забяспечвае прагляд (сканіраванне) Інтэрнэта і падтрымку інвертаванага файла (індэкснай базы дадзеных) у актуальным стане. Гэты праграмны комплекс з’яўляецца асноўным сродкам сбору інфармацыі аб наяўнасці і стане інфармацыйных рэсурсаў сеткі.

  2. Пошукавая база дадзеных (гэта так называемы індэкс) – спецыяльным чынам арганізаваная структура дадзеных, якая ўключае перш за ўсё інвертаваны файл, які складаецца з лексічных адзінак, узятых з праіндаксаваных вэб-дакументаў і які ўтрымлівае разнастайную інфармацыю аб гэтых адзінках, а таксама аб саміх дакументах і сайтах у цэлым.

  3. Пошукавая сістэма – падсістэма пошуку, якая забяспечвае апрацоўку запыту карыстальніка, пошук у базе дадзеных і выдачу вынікаў пошуку карыстальніку. Пошукавая сістэма мае зносіны з карыстальнікам праз карыстальніцкія інтэрфейсы – экранныя формы праграм-браўзераў: інтэрфейс запытаў і інтэрфейс прагляду вынікаў пошуку.

Індэксны файл (або індэкс) уяўляе сабой набор звязаных паміж сабой файлаў, арыентаваны на хуткі пошук дадзеных па запыту. Індэксы пошукавых сістэм гэта не што іншае, як віртуальныя канкардансы да тэкстаў. Выніку пошуку ў выглядзе кароткіх апісанняў дакументаў, як правіла ўтрымліваюць кантэксты, у якіх шукаемые словы сустрэліся ў знойдзеных дакументах. Адрозненне толькі ў тым, што канкардансы звычайна ствараюцца па канкрэтнаму твору або групе твораў, у той час як інфармацыйныя пошукавыя сістэмы інтэрнэта індэксуюць усю даступную колькасць электронных дакументаў.

Інтэрнэт можна разглядаць у якасці корпуса, аднак асноўныя рэжымы выкарыстання інтэрнэта як корпуса абмежаваны вывучэннем лексічнага матэрыяла. І ў гэтым накірунку магчымасці вельмі вялікія. Аднак, што датычыць граматычных даследаванняў на базе інтэрнэта, то без папярэдняй металігвістычнай разметкі яны зводзяцца да мінімума.




  1. Лінгвістычныя задачы, якія вырашаюцца з дапамогай корпусных даследаванняў

Карыстальнікаў корпусаў, у першую чаргу лінгвістаў, цікавіць не змест канкрэтных тэкстаў, а іх метатэкставая інфармацыя і прыклады ўжывання тых або іншых моўных элементаў і канструкцый.

Першапачаткова лінгвістычныя даследаванні, якія праводзіліся з дапамогай корпусаў, зводзіліся да падліку частот ужывальнасці розных моўных элементаў. Корпусы служылі сродкам атрымання статыстычных дадзеных. Так, статыстычнымі метадамі на матэрыяле корпуса можна вызначыць, якія словы або канструкцыі рэгулярна сустракаюцца, а якія рэдка.

Корпусы з’яўляюцца багатай крыніцай дадзеных для даследаванняў па лексікаграфіі і граматыцы. Лексікаграфічныя даследаванні неабходны для складання слоўнікаў. На сённяшні дзень практычна ўсе сучасныя слоўнікі англійскай мовы ствараюцца на аснове вялікіх корпусаў, якія дазваляюць зрабіць слоўнік рэпрэзентатыўным.

Выкарыстоўваюцца корпусныя тэхналогіі і ў навучанні замежным мовам. Для таго, каб навучыць замежнай мове, неабходна ведаць колькасныя дадзеныя аб ёй: склад найбольш частотнай лексікі, верагоднасць ужывання той ці іншай канструкцыі. Корпусная лінгвістыка дае магчымасць абнавіць набор прыкладаў, якія выкарыстоўваюцца ў навучанні мове.

Лінгвісты-тэарэтыкі выкарыстоўваюць корпусы ў якасці эксперыментальнай базы для праверкі гіпотэз і даказацельства сваіх тэорый. Прыкладныя лінгвісты (выкладчыкі і перакладчыкі) выкарыстоўваюць корпусы тэкстаў пры навучанні мовам і для вырашэння сваіх прафесійных задач.

Корпусы даюць тры тыпы дадзеных, якія могуць быць выкарыстаны ў ходзе лінгвістычных даследаванняў:



  1. Эмпірычная падтрымка.

Многія лінгвісты выкарыстоўваюць корпус у якасці “банка прыкладаў” г.зн. спрабуюць знайсці эмпірычную падтрымку для сваіх гіпотэз, над якімі яны працуюць. Корпусная лінгвістыка пры гэтым забяспечвае рэпрэзентатыўнасць і сбалансаванасць моўнага матэрыялу, а таксама пошукавы інструмент, які дае магчымасць правесці выбарку ў пэўным корпусе.

  1. Інфармацыя аб частотнасці.

Корпусы забяспечваюць інфармацыю аб частотнасці выкарыстання слоў, фраз і канструкцый, якая можа быць выкарыстана для колькасных даследаванняў. Колькасныя даследаванні ў сваю чаргу выкарыстоўваюцца ў многіх сферах тэарэтычнай і камп’ютарнай лінгвістыкі. Яны паказваюць падабенства і адрозненні паміж рознымі тыпамі тэкстаў.

  1. Экстралінгвістычная інфармацыя (метаінфармацыя).

Акрамя лінгвістычнага кантэксту, корпус прадстаўляе экстралінгвістычную інфармацыю або метаінфармацыю (жанр тэкста, звесткі пра аўтара і інш.).


База данных защищена авторским правом ©shkola.of.by 2016
звярнуцца да адміністрацыі

    Галоўная старонка