Модель DistilBERT была предложена в статье в блоге Меньше, быстрее, дешевле, легче: Introducing DistilBERT, a distilled version of BERT, и в статье DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. DistilBERT — это маленькая, быстрая, дешевая и легкая модель трансформера, обученная на основе дистиллированной базы BERT. Она имеет на 40 % меньше параметров, чем google-bert/bert-base-uncased, работает на 60 % быстрее, сохраняя при этом более 95 % производительности BERT, измеренной в бенчмарке понимания языка GLUE.
0

