Учёные из Стэнфорда объяснили, почему большие объёмы документов затрудняют работу нейросетей
Исследователи Стэнфордского университета доказали, что с ростом объема документов в системе их различать становится всё сложнее — это явление получило название «семантический коллапс». Нейросеть, классифицирующая документы, сталкивается с проблемой: чем больше данных, схожих по содержанию, тем хуже она способна давать точные ответы.
Объясняется это тем, что при поступлении документов система преобразует их в векторы. Когда объем данных невелик, создаются четкие кластеры, и поиск работает эффективно. Однако после примерно 10 000 документов эти кластеры начинают перекрываться, расстояния между векторами сокращаются, и все документы выглядят очень похожими.
В результате искусственный интеллект перестает выбирать релевантные документы, а точность поиска падает на 87% при 50 000 документах. Семантический поиск в этом случае уступает по качеству обычному поиску по ключевым словам, при этом возрастает вероятность появления ложных, или «галлюцинаций», ответов.
Это исследование имеет важное значение для развития искусственного интеллекта и обработки больших массивов текстовых данных, поскольку объясняет пределы эффективности современных нейросетей в сфере семантического поиска.
«Семантический коллапс» — это вызов, который исследователи и разработчики должны учитывать при построении систем обработки естественного языка, чтобы улучшать их точность и надежность в будущем.
Также мы писали о том, как судебный процесс с участием Krafton показал риски использования искусственного интеллекта в бизнесе