Russian-News-Clustering-and-Headline-Generation

所属分类:聚类算法
开发工具:Jupyter Notebook
文件大小:10230KB
下载次数:0
上传日期:2021-06-18 12:23:32
上 传 者sh-1993
说明:  俄罗斯新闻集群和头条新闻生成,,
(Russian-News-Clustering-and-Headline-Generation,,)

文件列表:
baselines.ipynb (676642, 2021-06-18)
data (0, 2021-06-18)
data\clustering (0, 2021-06-18)
data\clustering\raw_toloka_answers (0, 2021-06-18)
data\clustering\raw_toloka_answers\assignments_0525_full_cut.tsv (14105516, 2021-06-18)
data\clustering\raw_toloka_answers\assignments_0527_full_cut.tsv (4636336, 2021-06-18)
data\clustering\raw_toloka_answers\assignments_0529_full_cut.tsv (2311508, 2021-06-18)
data\clustering\ru_clustering_0525_urls.tsv (2522689, 2021-06-18)
data\clustering\ru_clustering_0527_urls_final.tsv (1473695, 2021-06-18)
data\clustering\ru_clustering_0529_urls_final_v2.tsv (1440482, 2021-06-18)
data\headline_generation (0, 2021-06-18)
data\headline_generation\headline_generation_answers.jsonl (18559539, 2021-06-18)
data\headline_selection (0, 2021-06-18)
data\headline_selection\titles_markup_0525_urls.tsv (851388, 2021-06-18)
data\headline_selection\titles_markup_0527_urls.tsv (509524, 2021-06-18)
data\headline_selection\titles_markup_0529_urls.tsv (510934, 2021-06-18)
toloka (0, 2021-06-18)
toloka\guidelines (0, 2021-06-18)
toloka\guidelines\headline_selection.html (5480, 2021-06-18)
toloka\guidelines\news_clustering.html (11642, 2021-06-18)
train_mlm.py (5786, 2021-06-18)

# Russian News Сlustering and Headline Generation Paper: [Russian News Clustering and Headline Selection Shared Task](http://www.dialog-21.ru/media/5297/gusevioplussmurovim154.pdf) ## Participants papers: * Vatolin et al., SberBank: [Russian News Similarity Detection with SBERT: pre-training and fine-tuning](http://www.dialog-21.ru/media/5288/vatolinasplussmirnovaeyplusshkarinss136.pdf) * Khaustov et al., MTS AI: [BERT for Russian news clustering](http://www.dialog-21.ru/media/5294/khaustovsvplusetal135.pdf) * Voropaev et al., MIPT: [Transformers for Headline Selection for Russian News Clusters](http://www.dialog-21.ru/media/5290/voropaevpplussopilnyako140.pdf) * Glazkova Anna, University of Tyumen: [Towards News Aggregation in Russian: a BERT-based Approach to News Article Similarity Detection](http://www.dialog-21.ru/media/5313/glazkovaav131.pdf) * Tikhonova et al., SberDevices: [Using Generative Pretrained Transformer-3 Models for Russian News Clustering and Title Generation tasks](http://www.dialog-21.ru/media/5330/tikhonovamplusetal138.pdf) ## Scripts * Baselines: [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1bam5oFul9Gzj9rryq8_7M1-EGJxO3K-G#scrollTo=GgLzfNigT-er) * MLM BERT pretraining: [train_mlm.py](https://github.com/dialogue-evaluation/Russian-News-Clustering-and-Headline-Generation/blob/main/train_mlm.py) * Clustering solution (reproduced): [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1rx2K4omqv96mYTL3f3sGAL9HWGeUhpv4) * Classification solution (reproduced): [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1lDXFjUWhLE70_1zLvcEJEb4grupymVo3) ## Shared task timeline * February 8, 2021: Clustering task started on [Codalab](https://competitions.codalab.org/competitions/28830). * February 26, 2021: Headline selection task started on [Codalab](https://competitions.codalab.org/competitions/29479). * March 13, 2021: Headline generation task started on [Codalab](https://competitions.codalab.org/competitions/29905). * March 22, 2021: Final deadline for all competitions. * March 28, 2021: Final deadline for paper submission. ## Введение Цель соревнования – собрать и сравнить подходы к кластеризации и выбору наилучшего заголовка для получившихся кластеров. Кластеризация новостеи выглядит достаточно сложнои задачеи для современных моделеи, и из-за этого является хорошим бенчмарком. Кроме того, кластеризация текстов как задача достаточно часто встречается в индустрии. Выбор или генерация лучшего заголовка – логичное ее продолжение. ## Соревнование по кластеризации Ссылка: https://competitions.codalab.org/competitions/28830 ### Данные Новостные документы берутся из [одноименного соревнования Телеграма](https://contest.com/docs/data_clustering2/ru). Поверх этого сделана попарная разметка документов в Толоке на предмет того, лежат ли документы в одном кластере. [Инструкция по разметке](https://ilyagusev.github.io/purano/clustering_instruction.html) Содержимое датасета: * ~15 тысяч размеченных пар новостеи за 25 мая 2020, обучение и валидация: [ссылка](https://www.dropbox.com/s/8lu6dw8zcrn840j/ru_clustering_0525_urls.tsv) * ~8,5 тысяч размеченных пар новостеи за 27 мая 2020, публичныи лидерборд: [ссылка](https://www.dropbox.com/s/3yh5ii20ijfbtb6/ru_clustering_0527_urls_final.tsv) * ~8,5 тысяч размеченных пар новостеи за 29 мая 2020, приватныи лидерборд: [ссылка](https://www.dropbox.com/s/3yeui3sdlc5jhd4/ru_clustering_0529_urls_final_v2.tsv) ### Задача Задача: кластеризация с эталоннои разметкои или бинарная классификация Метрики: F-мера для положительных пар. В качестве беизлаинов будут предлагались решения на основе именно кластеризации (полностью unsupervised, обучающая выборка только для подбора гиперпараметров). Однако, решения на основе бинарнои классификации тоже принимались. ### Результаты F-мера на положительных примерах. | Login | Public LB | Private LB | |:-------------------|:----------|:-----------| | maelstorm | 0,969 | 0,9604 | | naergvae | 0,967 | 0,95*** | | g2tmn | 0,965 | 0,9573 | | Kouki | 0,955 | 0,9548 | | alexey.artsukevich | 0,958 | 0,9527 | | smekur | 0,946 | 0,9387 | | nikyudin | 0,938 | 0,9295 | | landges | 0,916 | 0,9057 | | kapant | 0,907 | 0,8***5 | | bond005 | 0,902 | 0,8924 | | anonym | 0,906 | 0,8910 | | mashkka_t | 0,853 | 0,7149 | | vatolinalex | 0,952 | 0,4760 | | blanchefort | 0,941 | | | imroggen | 0,903 | | | Abiks | 0,894 | | | dinabpr | 0,844 | | ## Соревнование по выбору заголовков Ссылка: https://competitions.codalab.org/competitions/29479 ### Данные [Инструкция по разметке](https://ilyagusev.github.io/purano/selection_instruction.html) * ~5 тысяч размеченных пар заголовков за 25 мая 2020, обучение и валидация: [ссылка](https://www.dropbox.com/s/jpcwryaeszqtrf9/titles_markup_0525_urls.tsv) * ~3 тысячи размеченных пар заголовков за 27 мая 2020, публичныи лидерборд: [ссылка](https://www.dropbox.com/s/jfa1b1xxw24znr9/titles_markup_0527_urls.tsv) * ~3 тысячи размеченных пар заголовков за 29 мая 2020, приватныи лидерборд: [ссылка](https://www.dropbox.com/s/qyegrt8oj2wn686/titles_markup_0529_urls.tsv) ### Задача Задача: ранжирование заголовков Метрики: точность на парах. Безлаин: USE и Caboost в попарном режиме. ### Результаты | Login | Public LB | Private LB | |:-------------------|:----------|:-----------| | sopilnyak | 0,860 | 0,854 | | landges | 0,813 | 0,820 | | nikyudin | 0,832 | 0,816 | | LOLKEK | 0,808 | 0,814 | | maelstorm | 0,818 | 0,7*** | | a.korolev | 0,658 | 0,662 | ## Соревнование по генерации заголовков Ссылка: https://competitions.codalab.org/competitions/29905 ### Данные * Тестовая выборка, 9-12 марта 2021, данные Телеграма: [ссылка](https://www.dropbox.com/s/9vlf6plbjqpbmea/headline_generation_answers.jsonl.tar.gz) ### Задача Задача: генерация заголовков Метрики: ROUGE, BLEU Беизлаины: Lead-1 и Encoder-Decoder на RuBERT ### Результаты ROUGE = (ROUGE-1 + ROUGE-2 + ROUGE-L) / 3 | Login | ROUGE | BLEU | |:--------|:--------|:------| | LOLKEK | 0,387 | 0,695 | | Rybolos | 0,292 | 0,596 | ## Организаторы * Илья Гусев, МФТИ * Иван Смуров, ABBYY, МФТИ [**Основная страница соревнования на CodaLab**](https://competitions.codalab.org/competitions/28830#learn_the_details) [**Телеграм-чат соревнования**](https://t.me/dialogue_clustering)

近期下载者

相关文件


收藏者