Новости
  • Тренировка у Guillaume Lorentz, Париж, Франция

    Тренировка у Guillaume Lorentz, Париж, Франция

    Наша ученица Настя Цехмейструк, отдохнув в Париже, совместила приятное с еще более... 
    Читать полностью

  • Adrenaline фестиваль, Киев

    Adrenaline фестиваль, Киев

    6 октября в Киеве прошел фестиваль Adrenaline, который представлял собой отборочный тур... 
    Читать полностью

  • Melpo Melz

    Melpo Melz

    Шведская танцовщица и исполнительница дансхолла  Читать полностью →

корпус

В даному розділі описується процедура відбору і технологічний ланцюжок обробки тексту в ГІКРЯ і суміжні проекти.

Відбір текстів:

Для збору і очищення текстів використовується програма Nutch. Для наших цілей її довелося допрацювати ось основні моменти: для будь-яких веб-сторінок в Apache Nutch використовувалися загальні алгоритми виділення посилань і відділення службової інформації від призначеного для користувача контенту. Не було можливості привласнювати мітки контенту, який представляє собою метаінформацію, пов'язану з текстом - такого, як інтернет-псевдонім автора, вік, стать, місце народження, здобуття середньої освіти і справжнього місця проживання. Ми навчили програму виділяти все це на тих сторінках сайтів, які зроблені з одного й того ж шаблону.

Далі відібрані тексти очищаються від «сміття» (службової інформації, реклами, динамічно сформованих новинних смуг, спаму, автоматично згенерованого тексту). У ГІКРЯ також проводиться дедублікация текстів по алгоритму «3 + 5».

Якщо Ви є правовласником якого-небудь тексту, який за результатами автоматичного краулінга знаходиться в нашому корпусі, і це становить проблему - напишіть нам. Наш проект - некомерційний, і тексти в корпусі є доступними лише для пошуку (максимальний контекст - 50 слів).

Токенізація

Токенізація в корпусі здійснюється за допомогою власного токенізатора ГІКРЯ. Окремими токенами вважаються всі знаки пунктуації, а також всі поєднання з дефісами, де кожна частина має частина мови. Токенізатор спирається на словник невіддільних частин слова ( «гамма« в «гамма-випромінюванні» і ін.), Який буде доступний для ознайомлення після відкриття корпусу.

Морфологія

У ГІКРЯ ми використовуємо вільно поширювану програму TnT-Russian (Автор - Сергій Шаров), яка відповідає за морфологічну розмітку і лематизації з деякими внесеними нами модифікаціями . При розмітці використовується словник, створений за допомогою об'єднання можливостей TnT-Russian і mystem . Обсяг словника - понад 7 млн ​​словоформ.

Розмітка на даний момент відповідає широко вашого засобу перевірки правопису MULTEXT-East for Russian .

У корпусі здійснюється лематизації на базі згаданих вище модифікованих словників TnT-Russian, а не знайдене в слова проходять модуль cstlemma , Що працює на базі російських суфіксів.

На даний момент розробляється власний модуль лематизації знайдене слів, а так же, з урахуванням специфіки нашого корпусного матеріалу, також модуль виправлення помилок .

Приклад морфологічний розмітки в корпусі:

Приклад морфологічний розмітки в корпусі:

інша розмітка

ГІКРЯ багатий метатекстового розміткою: для кожного тексту з соцмереж зберігаються час і місце його написання, URL, інтернет-жанр (блог, новини і т.д.), а також рік, місце народження автора, підлогу автора. Завдяки інтерфейсу ГІКРЯ, при пошуку зручно задавати будь-які настройки з перерахованих вище, а також сортувати вже отримані результати за даними ознаками.

На матеріалі корпусу вирішуються актуальні завдання сучасної прикладної лінгвістики: автоматична регіональна , жанрова , Гендерна, вікова класифікація текстів, (Тобто дедублікация пошукової видачі, а не корпусу цілком), автоматичне виправлення помилок , поліпшення автоматичного зняття .

індексування

Щоб забезпечити прямий доступ до текстів, повинні застосовуватися мова запитів і методи швидкого пошуку. Індексування таких великих корпусів - це сама по собі велика наукова задача. Щоб забезпечити швидкий пошук за текстами з можливістю задати в якості ознак граматичні категорії, точні форми слів або леми, в ГІКРЯ ми реалізуємо власний пошуковий індекс.

Лінгвістичний пошук в ГІКРЯ можна здійснювати двома способами: через пошуковий рядок, набираючи вручну вимоги до пошукових позиціях або використовуючи для цих же цілей конструктор запитів. Наприклад, щоб шукати власні імена жіночого роду, можна набрати вираз на corpus query language [pos = "Npf ....»] Самому або просто розставити прапорці:

обсяг корпусу

На даний момент в ГІКРЯ вже представлені найбільші ресурси social media - Вконтакте, ЖЖ, а також Блоги Mail.ru, новинні ресурси і Журнальний Зал. Багато з цих ресурсів постійно докачувати, ведеться також скачування деяких форумів.

Склад ГІКРЯ на 2016 рік:

  • Журнальний Зал - 313 млн слів, 56547 документів
  • Новини (Ріа, Регнум, Стрічка ру, Росбалт): 851 млн слів, 2964897 документів
  • Живий Журнал: 8110 млн слів, 73229158 документів
  • Блоги Mail.ru: 707 млн ​​слів, 9882120 документів
  • ВКонтакте: 9820 млн слів, 193770717 документів
  • Разом: 19801 млн слів, 279903439 документів

можливості корпусу

ГІКРЯ - корпус, який з'єднує повноту і обсяг даних інтернету та точність аналізу, яка властива корпусам, зібраним вручну. І вирішили, що для того, щоб вийти на новий рівень достовірності частот досліджуваних явищ, нам варто поставити собі за мету зібрати новий диференційно повний корпус розміром не менше 50 млрд. слів. Відмінною особливістю завдання збору надвеликого корпусу є необхідність використання повністю автоматичних методів збору, очищення і лінгвістичної розмітки корпусу. Цей проект пов'язаний з різними областями комп'ютерної лінгвістики - можна відчувати і вдосконалити різні системи автоматичної розмітки, автоматичної класифікації текстів, задіяти машинне навчання. Так що не тільки результат, але і сам процес роботи, як ми сподіваємося, принесе багато користі науковому співтовариству.

Зарубіжні вчені теж намагаються робити такі текстові колекції, але вони мало розмічені і можна сказати, що ця галузь тільки почала розвиватися і правила, за якими потрібно збирати тексти, тільки формуються. Найбільші з існуючих корпусів - це Британський національний корпус (Близько 1 млрд. Слів), Національний корпус російської мови (500 млн. Слів) і корпусу і Araneum Russicum (В цих корпусах міститься 15 мільярдів слів, вони зібрані з інтернет-джерел, але не містять докладних метаданих про текстах). Незважаючи на, здавалося б, значний розмір, для серйозних наукових цілей ці корпусу навряд чи годяться, тому що занадто малі і не містять потрібної метаінформації - найчастіше лінгвіст не може правильно інтерпретувати результати дослідження, так як залишається невідомим, які тексти сформували область пошуку. Також в них немає критичної маси текстів конкретних типів, достатньою, наприклад, щоб говорити про частоту, прийнятності або особливості вживання того чи іншого слова або мовної конструкції.

Тому-то для лінгвістів і привабливий інтернет-корпус. Гікря дає лінгвістам можливість використовувати матеріал з інтернету:

  • розмічений лінгвістично
  • Дедубліцірованний
  • З зведеної нанівець структурною неоднорідністю сторінок, але зі збереженою апріорної розміткою користувачів інтернету
  • Підготовлений і індексований спеціально для лінгвістичного аналізу

Також корпус надає великий функціонал для статистичних досліджень: користувачеві доступні частоти запиту, прискорений варіант пошуку для отримання тільки частот, а також розробляється функціонал для установки користувальницького довірчого інтервалу при пошуку.

Наші унікальні функції:

  • Пошта запитів: можливість пересилки запитів іншим користувачам всередині інтерфейсу корпусу, з результатами і коментарями.
  • Регульована довжина контексту і тонкі призначені для користувача настройки дедублікация

Ми в соціальних мережах:

Facebook

ВКонтакте

Суміжні проекти:

Робота над Генеральним Інтернет-корпусом велася з урахуванням матеріалів і технологій, що використовуються в наступних проектах:

  • Словник «Мови російських міст»

http://community.lingvo.ru/goroda/

  • Форум «Міські діалекти» ABBYY

http://forum.lingvo.ru/actualtopics.aspx?bid=26

  • Інтернет-корпус російської мови університету Лідс (Великобританія)

http://corpus.leeds.ac.uk/ruscorpora.html

  • Національний корпус Російського Мови

http://www.ruscorpora.ru/

Ми висловлюємо щиру подяку наступним організаціям, які надали підтримку нашого проекту і зробили істотний внесок у його розвиток:

  • Російський Державний Гуманітарний університет http://rsuh.ru/
  • компанія ABBYY http://www.abbyy.ru/
  • Московський фізико-технічний інститут (Державний університет) http://mipt.ru/
  • Університет «СколТех» http://www.skoltech.ru/

Поділіться з колегами!

Aspx?
Дансхолл джем в «Помаде»

3 ноября, в четверг, приглашаем всех на танцевальную вечеринку, в рамках которой пройдет Дансхолл Джем!

Клуб Помада: ул. Заньковецкой, 6
Вход: 40 грн.

  • 22 апреля намечается Dancehall Party в Штанах!
    22 апреля намечается Dancehall Party в Штанах!

    Приглашаем всех-всех-всех на зажигательную вечеринку «More... 
    Читать полностью