Проект Common Corpus, возможно, станет решением юридических проблем, поскольку представила самый большой общедоступный набор данных для обучения большим языковым моделям (LLM).
Эта международная инициатива, координируемая французским стартапом Please, включает отдельных исследователей и другие компании, работающие в области искусственного интеллекта, такие как HuggingFace, Occiglot, Eleuther и Nomic AID.
Среди партнеров особо выделяют Langu:IA, инициатива, осуществляется отделом французского языка Министерства культуры Франции, целью которого, среди прочего, является «облегчение доступа к данным на французском и других языках Франции для обучения и специализации магистров.»
Common Corpus — это самый большой, на сегодняшний день, набор англоязычных текстов, насчитывающий 180 миллиардов слов. В них входят 21 миллион оцифрованных газет и миллионы книг. Помимо этого тут же собрали самый большой набор открытых данных на французском (110 миллиардов слов), немецком (30 миллиардов слов), испанском, голландском и итальянском языках.
Некоторые европейские издатели, такие как французская газета Le Monde, заключили соглашения с OpenAI о лицензировании своего контента для обучения чат-ботов.
Хотя конкретные условия этих соглашений остаются нераскрытыми, некоторые французские СМИ, что подобные договоренности — большая проблема. Особенно это «…тревожно, поскольку это одно из самых важных средств массовой информации во Франции”.
Различные типы открытого контента
В Европе, чтобы текст не был объектом авторского права, должно пройти 70 лет после смерти автора. Это означает, что используемые тексты «несколько» устарели.
Поэтому были и другие источники открытого контента. К ним относятся открытые правовые и административные документы, а также статистические данные.
Еще один способ увеличить корпус открытых данных — использование синтетических данных, то есть искусственно сгенерированных текстов, которые воспроизводят закономерности, взаимосвязи и характеристики, найденные в реальных. Например, в 2022 году исследователи Массачусетского технологического института обнаружили, что модели искусственного интеллекта, обученные на синтетических данных работают даже лучше, чем при использовании реальных. Правда, это касается генерации видео, так как на исходниках меньше фоновых объектов.