Топ новостей


РЕКЛАМА



Календарь

Володимир Плунгян - Навіщо ми робимо Національний корпус російської мови? - Архів номерів

Основною темою цього номера «Вітчизняних записок» є, наскільки я можу судити, не стільки навіть російську мову як таку, скільки його доля на рубежі XX і XXI століть, його майбутнє, можливість радикальних змін в його ладі і в сфері споживання.

Ця тема практично неозора, і, природно, вона може бути цікава не одним тільки професійним лінгвістам. Проте, якщо питання з цього приводу ставити саме лінгвістам (що теж природно), то з великою ймовірністю в їх відповідях відразу пролунає слово «корпус».

Дійсно, в науці про мову подібні фундаментальні проблеми з недавнього часу обговорюються в основному за допомогою такого інструменту, як корпус мови. Це дуже ефективний і корисний інструмент (яким можуть користуватися далеко не тільки вузькі фахівці), особливо в тому випадку, коли корпус є великим за обсягом і повним щодо охоплення матеріалу, т. Е. Є так званий Національний корпус мови.

Тепер, напевно, необхідно пояснити, що таке корпус взагалі і Національний корпус зокрема. Корпус деякого мови - це, в першому наближенні, зібрання текстів цією мовою, представлене в електронній формі і забезпечене науковим апаратом. Апарат, «вбудований» в корпус, зазвичай називається «розміткою», або «анотацією», корпусу; корпус тим краще, чим повніше і досконаліше його анотація. Власне, наука про корпусах (а така давно вже існує і називається «корпусні лінгвістика») - це перш за все наука про те, як зробити хорошу розмітку корпусу.

Хороша розмітка, зокрема, дозволяє швидко і ефективно знайти в корпусі ті слова, форми і конструкції, які потрібні досліднику. Адже в звичайному тексті немає ніяких відомостей, наприклад, про граматичної характеристиці входять до нього слів. Якщо нам потрібно знайти просто слово (наприклад, слово диван у всіх його формах), то з цим завданням непогано впорається і звичайний текстовий редактор: досить написати в вікні пошуку ланцюжок букв ДИВАН, і результат виявиться цілком прийнятним. Дещо гірше, правда, справа буде обстоять в тому випадку, якщо ми захочемо шукати, наприклад, всі форми російського слова жито. У цього слова є побіжна голосна, тому в деяких формах його основа виглядає як пик-, а в деяких - як РЖ-. Але якщо ми напишемо в вікні пошуку тільки ці дві букви (РЖ), результат виявиться неприйнятним: занадто багато інших російських слів теж починаються на РЖ- (іржавий, іржавіти, іржати, Ржев і т. П.). Стало бути, програма пошуку повинна розуміти як мінімум те, які форми в тексті відносяться до одного і того ж слова (наприклад, жита і житом, але не іржав і Ржев), т. Е. Хоча б частково «розуміти» граматичну структуру цієї мови .

Тим більше це розуміння необхідне, якщо ми хочемо шукати не слова, а форми. Уявіть собі таку задачу: знайти в досить довгому тексті всі форми давального відмінка однини. Ніякої текстовий редактор з цим завданням, звичайно, не впорається. Для того щоб граматичні форми можна було автоматично знайти в тексті, цей текст як раз і необхідно попередньо розмітити. Інакше пошук можливий тільки вручну, а це процедура довга і трудомістка.

Це тільки один, найпростіший приклад, який показує, для чого може бути потрібна розмітка. Насправді добре розмічений текст для фахівця виявляється абсолютно безцінним. Адже в своїй дослідницькій роботі лінгвісти залежать перш за все від кількості і якості зібраного матеріалу. У багатьох ще свіжі в пам'яті ті часи, коли приклади виписувалися з тексту і заносилися на картки. Зараз картки пішли в минуле, але сама процедура вибору прикладів з тексту робиться людиною і насилу піддається автоматизації. Розмічені корпуси - перший серйозний інструмент, що дозволяє істотно прискорити і спростити цю процедуру. Іншими словами, те, на що у дослідників попередніх поколінь йшли тижні, а то й місяці напруженої праці, за допомогою корпусу можна зробити за лічені хвилини.

Зрозуміло, для цього треба спочатку зробити корпус. Але хороший корпус робиться для багатьох, так що ми сподіваємося, що наша праця буде затребуваний.

Отже, корпус - це електронне зібрання текстів, розмічене таким чином, щоб в ньому можна було швидко знайти слова і конструкції із заданими граматичними та іншими цікавими лінгвістові властивостями. Що ж таке Національний корпус?

В даному випадку слово «національний» - свого роду термін, що відображає швидше семантику англійського слова «national», ніж російського слова «нація». Вперше це визначення з'явилося в назві Британського національного корпусу (British National Corpus, BNC), створеного в 1990-і роки в Великобританії спеціалістамілексікографамі; це не найперший електронний корпус, створений в світі, але один з кращих, найбільших і найбільш відомих. Для британців слово «національний» означало в першу чергу «характеризує британський національний варіант англійської мови» (на відміну від американського, австралійського і т. П.), Але оскільки цей корпус дуже швидко став практично еталоном корпусу взагалі, то значення слова «національний» непомітно змінилося. Національним корпусом стали називати просто найбільший і представницький корпус, що характеризує мову даної країни в цілому. Таким, наприклад, виявився Чеський національний корпус (C.esky. Narodni korpus), що містить практично вичерпну колекцію текстів на чеській літературній мові різних періодів.

Зрозуміло, що Національний корпус повинен бути перш за все великим: його обсяг вимірюється сотнями мільйонів слововживань (для порівняння можна сказати, що, наприклад, повне зібрання творів Ф. М. Достоєвського налічує «всього» близько двох мільйонів слів). Але, крім того, він - і це навіть важливіше - повинен бути представницьким. Інакше кажучи, він повинен містити всі типи текстів, представлені в даній мові в даний історичний період, і при цьому утримувати їх в правильній пропорції.

Саме тому Національний корпус російської мови [1] не обмежується, наприклад, тільки творами художньої літератури, хоч би важливими вони не були для вивчення російської мови. Він містить і газетні і журнальні статті різної тематики (від суспільно-політичних до, наприклад, спортивних), і спеціальні тексти (наукові, науково-популярні та навчальні з різних галузей знання), і рекламу, і приватну переписку та щоденники. Словом, в Корпус потрапляють зразки практично будь-якого існуючого в російській мові письмового дискурсу - від статті сучасного музичного критика до інструкції по догляду за кактусами, від розповідей Пелевіна до довідника з фізики. Більш того, укладачі Корпуси добре розуміли, що для повного і адекватного уявлення про те, що відбувається в сучасній російській мові (або, якщо завгодно, з сучасною російською мовою) необхідно ще більшою мірою розширити рамки Корпуси та включити в нього, поряд з письмовими текстами, також і записи усного мовлення. В даний час ця робота робиться.

Чому зразки усного мовлення так важливо мати в Корпусі? Люди пишуть не так, як кажуть; особливо ця різниця відчутно для мов з давньою письмовій традицією, за час існування якої норми писемного та усного мовлення встигають розійтися досить сильно. Письмова мова завжди більш консервативна; до того ж, наприклад, в російській мові письмова традиція формувалася під сильним іншомовним впливом (спочатку старослов'янським, згодом німецьким і французьким), яке набагато менше торкнулося усне мовлення. В цьому відношенні російська мова не виняток: подібним чином справа йде в багатьох європейських письмових мовах, від чеського до французького, а також у багатьох письмових мовах Азії з давньої літературною традицією.

Таким чином, якщо ми хочемо виявити найбільш динамічні структури живого російської мови - і якщо ми хочемо хоча б частково зазирнути в майбутнє російської мови, ми повинні звернутися до стихії усного мовлення, не скутим традицією і нормою. Багато що в усному мовленні вражає - але, з іншого боку, багато конструкцій, що існують в сучасній усній стихії, несподівано спливають в документах часів Олексія Михайловича і навіть в новгородських берестяних грамотах XII-XIV століть.

Два відомих прикладу на цю тему, яким я зобов'язаний моїм колегам-філологам [2] .

1) У древніх російських текстах було два точних терміна, які позначали збройну агресію з метою зведення особистих або майнових рахунків: якщо агресори приходили на своїх двох, це називалося знаходячи, а якщо приїжджали верхом - відповідно, наїзд. Наїзди в найсучаснішому розумінні досить часто відбувалися в стародавньому Новгороді і в інших місцях, де, судячи з документів, раз у раз хтось на кого наїжджав (саме так і писали).

2) У 1671 році допитували полоненого Степана Разіна. Протоколи цих допитів збереглися. Перше питання виглядає так: «Про князь Івана Прозоровського і про дяка, за што побив і яка шюба?» Абсолютно сучасний синтаксис - і, взагалі кажучи, прекрасно зрозумілий, незважаючи на кілька екзотичну форму: ми, в общем-то, і зараз сказали б точно так же.

» Абсолютно сучасний синтаксис - і, взагалі кажучи, прекрасно зрозумілий, незважаючи на кілька екзотичну форму: ми, в общем-то, і зараз сказали б точно так же

Джерелом усних текстів для нас є, наприклад, записи радіопередач, інтерв'ю, круглих столів і т. П., А також тексти, отримані в більш неформальній обстановці - наприклад, бесіди соціологів або маркетологів з цільовими групами респондентів на певну тему (якості якого-небудь товару, соціальні проблеми, особисті обставини учасників бесіди, і т. п.): в таких ситуаціях люди, як правило, говорять досить вільно і природно. Але, не обмежуючись цим, ми ведемо також записи побутових розмов (діалогів і монологів) на вулиці, в установах, в домашній обстановці. У таких записах беруть участь групи добровольців з різних регіонів Росії, так як в Корпусі, звичайно, повинні бути зразки мови не тільки жителів великих столичних міст. Відразу слід додати, що окремою проблемою є включення в Корпус зразків не загальноросійської мови (нехай і в його розмовному варіанті), а справжньою діалектної мови. Такі зразки ми теж сподіваємося з часом в Корпус включити.

Тут не можна не сказати ще про один тип текстів, які активно використовуються в Корпусі вже на даному етапі роботи. Це тексти так званої «електронної комунікації»: листування по електронній пошті, а також всілякі чати, форуми, загальнодоступні електронні щоденники (так звані «блоги» [3] ) І т. П. У такого роду текстах ми маємо справу фактично з спонтанним письмовим самовираженням, що дає дуже своєрідний гібрид усного та писемного мовлення. Звичайно, навіть в форумах і блогах люди продовжують писати не так (або не зовсім так), як кажуть, але дистанція між письмової та усної промовою тут у багато разів менше. Цим електронна комунікація і приваблива для лінгвістів: якісь мовні явища зустрічаються тільки або переважно в даних текстах. Втім, не можна не помітити, що тексти електронної комунікації найбільш складні для обробки і розмітки, тому що пишуть в мережевому середовищі почуваються вільніше не тільки по відношенню до мови, але і по відношенню до норм загальноприйнятої орфографії. Орфографічна варіативність електронних текстів зростає на порядок, в них широким потоком вливаються розмовні дублети, вимовлені на місці літературних, але зазвичай не відображаються на листі - такі, як ща (і щас), сёдні, че, струму, ваще, хто-нить - і багато іншого (русистам давно і добре відоме). Цікаво, що пишуть часто вдаються до спотворення орфографії свідомо, з метою мовної гри. Більш того, здається, що масові ігри з орфографією (які заслуговували б окремого грунтовного розповіді) якраз і виникли саме в електронному середовищі як специфічний засіб виразності - якщо завгодно, художній прийом. Існує навіть спеціальна мода, яка вийшла з декількох мережевих спільнот і як пожежа розповсюдилася по всьому російському Інтернету (наприклад, орфографічні кліше типу пеши исчо або аффтар) - своєрідний код, за яким присвячені впізнають один одного. Але, звичайно, привертають електронні тексти далеко не тільки своєю орфографією і розкутим синтаксисом, але і, наприклад, лексикою: знову-таки, це (якщо не брати до уваги деяких молодіжних періодичних видань) один з найбільш надійних джерел для вивчення сучасного сленгу: де ще можна в такій кількості (і в таких природних контекстах) зустріти всілякі рулить, запалює, не котить, ковбасить, тягнеться і т. д., і т. п. (якщо ви, шановний читачу, погано розумієте, що все це означає, то, швидше за все, вам значно більше 15 років або ви іно транец).

Так що з електронними текстами ми працюємо активно.

Якщо подивитися на пропорції різних типів текстів в Корпусі, то виявиться, що частка власне художніх текстів (проза і драматургія [4] ) Не так вже й велика: вона становить близько 40 відсотків, т. Е. Менше половини. При цьому в число художніх текстів включається і мемуарна проза, яка дуже цікава і показова з точки зору мови, але багатьма дослідниками справедливо кваліфікується як жанр проміжний між художньою літературою і чистим "non-fiction". Це багато в чому суперечить установкам традиційної вітчизняної філології (взагалі явно або неявно ставила знак рівності між вивченням російської мови та вивченням російської літературної мови, т. Е. Мови художньої літератури). Сам термін «літературний» мову (що означає насправді скоріше не літературний в прямому сенсі, а просто загальнонаціональний нормативний, т. Е. Стандартна мова) частково передбачає, що найбільш престижна і «правильна» частина текстів, створюваних на даній мові, - це тексти художньої прози. Тим часом така точка зору як мінімум не очевидна і вимагає доказів. Чи вірно, що мова письменників (в тому числі видатних письменників) і загальнонаціональний мову, - це одне і те ж? У загальному випадку це, звичайно ж, не так - і тим більше це твердження не відповідає дійсності в другій половині XX століття, коли соціальне значення художньої літератури (і, як наслідок, ідейно-стилістичні установки сучасних постмодерністів) радикально змінилося в порівнянні з кінцем XIX - початком XX століття. Тому в Національному корпусі російської мови художні тексти представлені у великій кількості, але вони не домінують. Цікаво, що в корпусах європейських мов ця частка ще нижча і, як правило, не перевищує 20 відсотків, так що Національний корпус російської мови все одно залишається одним з найбільш «літературоцентричність». Сучасні письменники - в усякому разі ті, що вважаються найбільш цікавими, - швидше за виступають як експериментатори, мовні еквілібристи, всілякими способами порушують сучасні мовні норми. Порушення норм, звичайно, лінгвістові дуже цікаво (не випадково стільки дисертацій захищалося, наприклад, про мову Андрія Платонова), але не можна займатися тільки індивідуальними порушеннями норми, залишивши за межами розгляду «справжню» мовне середовище. І знову ж таки, повторюся, дуже хороший баланс представляють в цьому відношенні мемуари: це тексти з елементами художньої організації, написані, як правило, людьми непересічними, хорошими оповідачами, але при цьому набагато більш вкорінені в мовній стихії повсякденності, ніж сучасна художня література. Мій особистий рада тим, хто хоче зрозуміти мовні уподобання і звички якоїсь певної епохи, - читайте мемуари, написані свідками цієї епохи!

І ось, зібране разом, все це багатство, що відбиває, як можна сподіватися, сучасну російську мову після 1955 року в усіх його аспектах, стилях, жанрах і формах існування (планується розмістити тексти загальним обсягом до 100 мільйонів слововживань, зараз - на момент написання цих заміток - доступно близько 70 мільйонів [5] ), Дозволяє будь-якій людині шукати будь-яке слово або словосполучення в певній граматичній формі або просто певні граматичні форми. Говорячи більш технічною мовою, можливий пошук по морфологічним параметрам. Крім того, пошук можливий не тільки по всьому корпусу, а й за певним подмножеству текстів, заданої користувачем: наприклад, тексти певного автора, певного періоду, визначеного жанру і т. П. (В будь-яких комбінаціях: наприклад, тексти про спорт, написані жінками після 1995 року - якщо, звичайно, таке комусь для чогось знадобиться).

Кому і навіщо може бути потрібен такий корпус?

Частково на це питання відповідь була вже дано. Перш за все, корпус потрібен - навіть не просто потрібен, а потрібен - професійним лінгвістам, тим, хто так чи інакше має справу з фактами мови, а значить, повинен ці факти збирати і систематизувати. Для лінгвістів корпус - як мінімум неоціненний інструмент, який скорочує витрати часу на технічну роботу. Насправді, звичайно, корпус - щось більше, ніж просто технічну підмогу, - це фактично довідково-інформаційна система з сучасної російської мови, що дозволяє отримувати відповіді на найнесподіваніші питання, - більш того, що дозволяє ставити нові проблеми, яких лінгвістика минулого майже не стосувалася.

Кілька приватних прикладів, взятих з недавньої дослідницької практики - моєї або моїх колег. Ось на які питання лінгвіст може відповісти за допомогою Корпуси буквально за лічені хвилини:

1) У російській мові є дієслово недосконалого виду реагувати. Його коррелятами доконаного виду можуть бути кілька різних префіксальних дієслів: прореагувати, відреагувати, зреагувати (явище нерідке, особливо серед запозичень). Який з цих префіксальних корелятів вживається частіше? До яких контекстам тяжіє кожен з цих префіксальних корелятів (наприклад, який з них більш охоче поєднується з власною мовою швидко)? Нарешті, в якій послідовності вони з'являються в сучасній мові - одночасно або по черзі? Різниться чи частота їх вживання в різні періоди?

2) У російській мові у частині іменників чоловічого роду в парадигмі однини є особлива додаткова відмінкова форма - так званий «другий родовий» відмінок. Так, у слова цукор звичайна форма родового відмінка виглядає як цукру, а форма другого родового - як цукру (наприклад, в контекстах типу покладіть собі ще цукру). Ця форма проникла в російське схиляння в XVI-XVII століттях, пережила «пік» вживаності в XVII-XVIII століттях, а до кінця XIX століття стала повільно згасати. У сучасній мові другий родовий зустрічається тільки у приблизно сотні слів - правда, дуже уживаних - і зазвичай може бути замінений на простий родовий (так, можна сказати і покладіть собі ще цукру, різниця майже невідчутна говорять). Нові запозичення вже багато десятиліть не приймають форми другого родового відмінка. Можна подивитися, з якою частотою вживаються у різних слів - і у різних авторів - форми другого родового. Наприклад, як зараз вважають за краще писати - підняти з підлоги або підняти з підлоги? А встати - з підлоги або з підлозі?

Абсолютно ясно, що число таких прикладів можна багаторазово збільшити, а завдання - ускладнити. Але я навмисне навів приклади найбільш «звичайних», повсякденних завдань, що постають перед дослідниками російської мови, щоб показати, наскільки Корпус технічно скорочує і революціонізує роботу з матеріалом навіть і в цих випадках, дозволяючи простим натисканням кнопки отримати дані, на збір яких в іншій ситуації потрібні були б місяці (якщо не роки).

Зараз використання Корпуси в повсякденній діяльності лінгвістів поступово стає нормою. Вже звично, що доповіді на наукових конференціях супроводжуються словами «На основі прикладів, отриманих з Національного корпусу російської мови ...» або «У Національному корпусі російської мови це явище відображено так ...». Студенти виконують практичні завдання, пишуть курсові та дипломні роботи, використовуючи Корпус (і одночасно навчаючись правильно з ним поводитися). На матеріалі Корпуси вже захищаються дисертації. Все це цілком природно і могло б статися значно раніше: в нашій країні корпусні лінгвістика розвивалася, на жаль, з великим відставанням від США, Європи і Японії. Причин для цього, як завжди, було багато, але будемо сподіватися, що зараз цей розрив почне долатися. Цілком можливо, що в недалекому майбутньому без корпусу вивчається лінгвістові буде так само неможливо обходитися, як, наприклад, без словника цієї мови. Більш того, корпус, словник і граматика, швидше за все, з'єднаються в один електронний ресурс - чи базу даних, на підставі якої і можна буде вивчати мову.

Але, може бути, корпус - це винахід цінне, проте цікаве тільки вузьким професіоналам? Чи може корпус бути цікавий комусь ще, крім лінгвістів?

Безумовно, може - так само, як далеко не тільки лінгвісти користуються словниками і граматиками. І я б вважав основну мету цих нотаток досягнутої, якби слово «корпус» в гуманітарній (і не тільки) середовищі стало таким же звичним, як слово «словник», і якби мої читачі-нелінгвісти спробували б і для себе відшукати різні можливі корисні застосування корпусу.

Але спочатку скажу про тих, кому давно вже не доводиться спеціально розповідати про переваги корпусу. Це - програмісти, які працюють в галузі автоматичної обробки текстів (в тому числі і різного роду пошукових систем). Оскільки програми такого роду мають справу з природним мовою, вони повинні в тій чи іншій мірі «розуміти» структуру текстів, написаних на цій мові. Причому - увага! - розуміти структуру саме тих текстів, які зустрічаються в реальному житті, а не ідеалізовану структуру мови в тому вигляді, як вона описана в академічних і тим більше шкільних граматиках. Зі сказаного ясно, що програмісти, може бути, як ніякі інші професіонали (не рахуючи лінгвістів, звичайно) зацікавлені в тому, щоб корпусу, що відображають справжнє і максимально різноманітне мовне вживання, так би мовити, непріглаженную мовну стихію, створювалися і розвивалися. Не випадково проект створення Національного корпусу російської мови вже на самих ранніх етапах був підтриманий компанією «Яндекс» (найбільший російський портал, який розробив одну з найшвидших і ефективних пошукових програм з російської сегменту Інтернету), і в цілому поза лінгвістики найбільшу увагу до Корпусу проявляли і виявляють фахівці з інформатики та програмування. Співпраця з програмістами компанії «Яндекс» виявилося дуже плідним: при їх безпосередньої технічної підтримки і був створений сайт, на якому розміщений Національний корпус російської мови в його нинішньому вигляді.

Зрозуміло, і програмісти далеко не вичерпують «цільову аудиторію» корпусу. Наступна за важливістю група користувачів - це, напевно, ті, хто так чи інакше має справу з викладанням сучасної російської мови, причому не тільки - і, може бути, навіть не стільки в якості рідної, скільки в якості іноземного.

Звичайно, і в російській школі Корпус може бути корисний для вчителів і учнів. Наприклад, саме в Корпусі можна швидко і легко знайти приклад на рідкісне слово чи граматичну конструкцію, перевірити написання або вживання цікавлять одиниць, і т. П. (Слід, правда, при цьому пам'ятати, що Корпус - не нормативною посібник, мова там відбивається не таким, яким він повинен бути з точки зору авторів описів, а таким, яким він насправді є. з точки зору шкільної граматики багато з того, що зустрічається в Корпусі, буде кваліфіковано як «помилки» або в кращому випадку «відступу» від норми. Втім, ніщо не м шает вчителю і його учням скласти власний подкорпус зі зразкових з точки зору мови творів і користуватися саме їм.)

Але багато разів зростає значимість Корпуси при зверненні до іноземної аудиторії. Для людей, які не володіють російською мовою в якості рідної (як викладачів, так і учнів), Корпус виявляється воістину незамінний мим інструментом. Дійсно, ми, носії російської мови, щомиті занурені в його стихію. «Приклади вживання» російської мови не просто існують у нас в свідомості - вони оточують нас буквально всюди. Звичайно, спеціально відібрані і оброблені в складі Корпусу, ці приклади можуть принести набагато більшу користь, але якщо носія російської мови позбавити Корпуси, це не позначиться фатальним чином на можливості його контактів зі стихією російської мови - просто тому, що ця стихія існує принаймні і в його свідомості теж.

Інша річ іноземець. Його мовна свідомість - не російське. І він надзвичайно потребує інструменті, що відкриває йому максимально широкий (і максимально комфортний) доступ в світ російської мови. Нічого кращого Корпуси сучасна наука в цьому випадку запропонувати не може. Саме в Корпусі викладач і студент можуть знайти відповіді на багато свої питання - причому такі відповіді, які і носій не відразу здогадається запропонувати. Тому не випадкова висока популярність корпусів в іншомовному середовищі. І саме від зарубіжних русистів (особливо викладачів російської мови) ми отримували самі зацікавлені і самі емоційні відгуки.

Як невеликого відступу слід зазначити, що перші електронні корпусу російської мови, доступні для загального користування, почали з'являтися не в Росії, а в Європі, і творцями їх були європейські русисти. У світлі сказаного це абсолютно зрозуміло. Фахівці добре знають так званий Упсальський корпус російської мови (що включає невеликий за нинішніми мірками і практично не оброблений корпус російських художніх і публіцистичних письмових текстів 1960-1970-х років, з окремими додатками з інших періодів). Цей корпус був створений в Швеції, а в даний час зберігається на сервері Тюбінгенського університету в Німеччині, і в свій час чимало нагоді фахівцям. Цікаві розробки з російської корпусних лінгвістиці ведуться в Фінляндії - взагалі, ця маленька країна є одним з лідерів корпусної лінгвістики в світі, в тому числі і в галузі російської корпусної лінгвістики. Весь цей досвід ми, звичайно, у міру можливості намагалися врахувати - поряд з нашим вітчизняним досвідом останніх десятиліть.

Ще одна група людей, для яких Корпус може представляти безперечний інтерес, - люди пишуть і, ширше, взагалі якось у своїй повсякденній діяльності пов'язані зі словом. Наприклад, редактори газет і журналів. Редакторам в своїй практичній діяльності набагато частіше, ніж академічним дослідникам, доводиться вирішувати питання узусу: чи припустимо таке слово або конструкція? Хто, де, коли вжив вперше такий оборот? Для яких типів тексту він найбільш характерний? Важко уявити собі, де можна швидко знайти відповіді на такі питання, якщо не в Корпусі. (Взагалі, іноді здається, що корпуса були придумані спеціально для редакторів - втім, деякі стверджують, що спеціально для програмістів - або спеціально для викладачів російської мови як іноземної.) У всякому разі, нам відомо, що багато, як тепер прийнято говорити, « просунуті »редактори активно користуються Корпусом для вирішення своїх повсякденних проблем - ну і, звичайно, для більш ефективного залякування авторів, як же без цього. «Ось Ви тут пишете ... а, між іншим, в Національному корпусі російської мови ...» Кажуть, що така синтаксична конструкція діє безвідмовно. Знову-таки, Корпусом можна користуватися і для перевірки якихось відомостей, т. Е. Як довідником - але, ще раз повторю, в цьому відношенні необхідно дотримуватися дуже обережним, пам'ятаючи, що не все дійсне може бути розумно (по крайней мере, якщо мова йде про текст, призначеному для публікації в газеті чи журналі).

Власне, на цьому можна було б поставити крапку, вважаючи, що автор переконав читачів в необхідності користуватися Національним корпусом російської мови і звертатися до нього так само регулярно, як і до словника (якщо не зараз, то в близькому майбутньому). Однак на закінчення, може бути, буде корисно поділитися деякими розрізненими спостереженнями, деякими оцінками тих результатів, які Корпус дає для вивчення російської мови і розуміння закономірностей його розвитку.

Вище мені вже доводилося говорити, що одна з найбільш цікавих завдань, яку можна вирішувати саме з допомогою Корпуси, - це спостереження за динамікою розвитку мови. Оскільки тексти, що входять в корпус, датовані, то неважко простежити за хронологією поступових мовних змін - за появою або поступовим згасанням певних слів, конструкцій або граматичних форм (типу «другого родового» відмінка).

Це викликає до життя фактично новий напрямок - свого роду «мікроісторіческую» лінгвістику, в центрі уваги якої знаходяться не глобальні зміни в історії мови, а зміни менш масштабні, що займають десятиліття (для історії мови це надзвичайно маленький термін). Не можна сказати, що такі дослідження раніше не проводилися зовсім (навпроти, їх дуже любив, наприклад, один із класиків вітчизняної філології академік В. В. Виноградов), але з появою корпусів їх обсяг і ефективність, на мою особисту думку, повинні стрімко зрости.

Що ж говорить нам Корпус про сучасний стан російської мови? Опускаючи спеціальні подробиці, можна помітити наступне.

З точки зору історії російської мови, нинішній період є надзвичайно важливим і цікавим. Це - період мовного зсуву, може бути - мовного зламу. Взагалі в історії мови періоди відносної стабільності завжди чергуються з періодами щодо швидких і глибоких змін. Можна вважати, що російська мова впритул наблизився до такого стану, і ймовірність великих змін в його структурі в найближчому майбутньому вельми велика.

Про це побічно свідчить те, що попередні століття в цілому можна охарактеризувати як відносно стабільні. Останній «неспокійний» період для російської мови - це XVII-XVIII століття, коли після Петровських реформ в мову хлинув потік європейських запозичень, старослов'янську мову був значно потіснений в письмовому узусе і завершився перехід від середньо системи до ранньої сучасної російської.

Нинішню історичну епоху часто порівнюють саме з цим часом. Різкий злам звичних соціальних умов. Зміна самого статусу літературної мови. Стилістичний, жанровий (і навіть орфографічний, зовсім як в ті часи!) Різнобій. Потік запозичень (в нинішній ситуації - в основному англійських). Якими ж можуть бути результати? Чи не варто говорити, що на початку XXI століття складається нова мовна система, по відношенню до якої нинішня буде називатися як-небудь на зразок «пізній среднерусский» або «пізній класичний період»?

Звичайно, зараз такі прогнози робити рано, але зміни в самому ладі російської мови дуже ймовірні. Якщо більше 200 років з мовою «майже нічого» не відбувалося, то критичний потенціал змін зростає. Потрібен лише зовнішній поштовх, каталізатор.

Цікаво, що різких змін в російській мові багато хто очікував на початку XX століття, після революції. І, дійсно, ситуація почала 1920-х теж багато в чому нагадувала нинішню. Але тоді ці очікування не виправдалися: російська мова пережила соціальні потрясіння порівняно безболісно. Глибинні пласти мовної системи майже не були порушені змінами. Якщо вдуматися, це факт і дивовижний, і в той же час закономірний: радянське суспільство дуже швидко - через 10-15 років після революції - позиціонувало себе як суспільство закрите, жорстко регламентує всі сфери життя (в тому числі і письмова мова!) І при це консервативне. Така політика дуже ефективно «заморозила» паростки мовних змін, які могли б уже в той час дати досить непередбачувані пагони. В результаті сучасну російську мову набагато ближче стоїть до мови початку XX століття, ніж, наприклад, сучасний французький, стрімкі зміни якого нічим (крім звичайних загальнокультурних механізмів сучасної держави) не стримувати. Але друга спроба - після нової революції - може виявитися більш дієвою.

З конкретних речей потрібно відзначити, що, як завжди, лексика і фонетика йдуть попереду. Лексичний склад російської мови зараз змінюється стрімко як ніколи: іншомовні запозичення, сленг, внутрішні зміни значень слів (згадаємо, що тепер насправді означають такі слова, як напружувати або вантажити) - все це робить свою щоденну мурашину роботу. Змінюється і вимова: значно прискорився темп мови, проковтують интервокальной приголосні ( «хоіт» замість ходить, «буіш» замість будеш - і навіть «поінл» з особливим «гугнявим» призвуком замість зрозумів). Майже не чути ненаголошені голосні на кінці слова.

Рано чи Пізно це винне позначітіся на Слабко зонах російської граматічної системи. Граматика поки трімається. Я думаю, найбільш вразливе в російській мові схіляння. Тексти Корпуси показують помітне зростання - особливо в усному мовленні - назівного відмінка в усіх позіціях. Так, чіслівнікі Вже практично перестали схілятіся (зовсім НЕ Важко почути Щось на кшталт остался без триста двадцять п'ять тисяч рублей). На наших очах позбавляються форм відмінювання і географічні назви типу Бородіно: в повсякденній мові фактично єдиним варіантом стає поруч з Бородіно, живу в Бородіно і т. П. Не бажають схилятися, що характерно, і нові запозичення, а запозичення ніколи не підкоряються тим законам, які в самому приймаючому мові діють слабо. Чи чекає російську мову доля болгарського - втратив все відмінки, функції яких взяли на себе приводи, - звичайно, жоден серйозний фахівець прогнозувати не береться. Але «щось може статися».

Тепер у нас є Корпус. Так що отримати відповідь, може бути, буде простіше.

[1]

Проект створення Національного корпусу російської мови, про який йде мова в справжніх нотатках, був підтриманий особливої ​​програмою Російської академії наук. Починаючи з 2004 року, над складанням цього корпусу працює велика група лінгвістів з різних науково-дослідних інститутів і вузів Москви, Санкт-Петербурга та інших міст. В даний час Національний корпус російської мови розміщений (за підтримки компанії «Яндекс») на сайті www.ruscorpora.ru і відкритий для вільного доступу. На цьому ж сайті є більш докладна інформація про Корпус, робота над вдосконаленням і поповненням якого триває.

[2] Особлива подяка за допомогу в пошуку цитат - Дмитру Сичинава.

[3] Найвідомішим російськомовним блогом є, мабуть, «Живий Журнал» (створений спочатку в США, але став дуже популярним в Росії, зокрема, серед гуманітаріїв і людей «вільних професій»); втім, аналогічних ресурсів є досить багато.

[4] На жаль, російські поетичні тексти поки в загальному корпусі не представлені - їх включення і обробка вимагають особливих зусиль і вирішення цілої низки складних проблем, в тому числі і технічних. У майбутньому створення корпусу російських поетичних текстів, звичайно, планується.

[5] Окремою частиною проекту є включення в Корпус російських письмових текстів XIX і першої половини XX століття. Ця робота також ведеться.

Що ж таке Національний корпус?
Чому зразки усного мовлення так важливо мати в Корпусі?
Перше питання виглядає так: «Про князь Івана Прозоровського і про дяка, за што побив і яка шюба?
Чи вірно, що мова письменників (в тому числі видатних письменників) і загальнонаціональний мову, - це одне і те ж?
Кому і навіщо може бути потрібен такий корпус?
Який з цих префіксальних корелятів вживається частіше?
До яких контекстам тяжіє кожен з цих префіксальних корелятів (наприклад, який з них більш охоче поєднується з власною мовою швидко)?
Нарешті, в якій послідовності вони з'являються в сучасній мові - одночасно або по черзі?
Різниться чи частота їх вживання в різні періоди?
Наприклад, як зараз вважають за краще писати - підняти з підлоги або підняти з підлоги?

Реклама



Новости