Где применимо

Edge-inference подходит для классификации, кратких подсказок, предварительной фильтрации и сценариев с чувствительными данными.

Где ограничение

Малые модели хуже держат длинный контекст и сложные рассуждения. Их нужно сравнивать с baseline, а не с самым крупным API в демо-режиме.

Практический вывод

Команды могут использовать малые модели как слой маршрутизации и приватности, но должны явно фиксировать границы качества.