Nvidia анонсирует TensorRT 8, сокращающий время вывода BERT до миллисекунды TensorRT 8 обеспечивает более чем вдвое большую точность и скорость вывода по сравнению с предыдущим поколением 20 июля 2021, вторник 22:12 -25% на RTX 3060 Ti за неделю в Ситилинке Начислено вознаграждениеЭта новость написана посетителем сайта, и за неё начислено вознаграждение. реклама TensorRT - это SDK для глубокого обучения от Nvidia, который позволяет приложениям работать до 40 раз быстрее, чем платформы, использующие только ЦП, во время логического вывода. С помощью модели параллельного программирования CUDA TensorRT позволяет оптимизировать модели нейронных сетей, откалибровать для более низкой точности с высокой точностью и развернуть ваши модели для исследований и коммерческих вариантов использования. Сегодня Nvidia запустила 8-е поколение TensorRT. Последняя версия SDK, получившая название TensorRT 8, содержит множество обновлений и усовершенствований, которые позволят разработчикам и компаниям оптимизировать и развертывать свои рабочие процессы и продукты глубокого обучения в Интернете. При развертывании и коммерческом использовании время вывода для моделей глубокого обучения может создавать узкие места, особенно для больших моделей преобразователей, таких как BERT и GPT-3. Чтобы смягчить такие проблемы, разработчики прибегают к уменьшению параметров. Но это приводит к потере точности и снижению качества. анонсы и реклама Дешевая Gigabyte 3070 - смотри цену -30% на RTX 3060 в Ситилинке Очень дешевая RTX 3080 LHR в Регарде 3070 Ti дешевле 100тр, цена вдвое снижена с анонса -54 000р на RTX 3080 Ti Gigabyte Gaming Compeo.ru - правильный компмагазин без подвохов 4K 55" Philips за копейки - успей купить В полтора раза упала цена 75" 7680 x 4320 Samsung На порядок упала цена на MSI RTX 3060 Ti RTX 3060 Ti за копейки в XPERT.RU Используя TensorRT 8, Nvidia впервые в отрасли показала время вывода 1,2 миллисекунды на BERT-Large, которая является одной из наиболее часто используемых сегодня языковых моделей. По сравнению с последним поколением TensorRT сократила время вывода в 2,5 раза. Рекордное время вывода TensorRT 8 должно позволить предприятиям использовать более крупные модели таких языковых моделей, не беспокоясь о вычислительной мощности и времени вывода. реклама В основе этой быстрой скорости вывода лежат два ключевых достижения. Во-первых, TensorRT 8 использует технику производительности, известную как Sparsity, которая ускоряет логический вывод нейронной сети за счет сокращения вычислительных операций. Второй метод, получивший название Quantization Aware Training (QAT), позволяет разработчикам использовать обученные модели для выполнения вывода с точностью INT8 без потери точности. Разреженность, QAT и другие специфичные для модели оптимизации, встроенные в TensorRT 8, в совокупности приводят к двукратному увеличению производительности по сравнению с его предшественником TensorRT 7. И хотя использование INT8 для ускорения вывода не является новой концепцией, QAT повышает точность вычислений INT8 в 2 раза по сравнению с прошлым поколением. реклама «Модели ИИ становятся все более сложными, и во всем мире растет спрос на приложения реального времени, использующие ИИ. Это заставляет предприятия развертывать современные решения для логического вывода », - сказал Грег Эстес, вице-президент по программам для разработчиков в Nvidia. «Последняя версия TensorRT представляет новые возможности, которые позволяют компаниям предоставлять своим клиентам диалоговые приложения ИИ с уровнем качества и скорости отклика, которые раньше были невозможны». Начислено вознаграждениеЭтот материал написан посетителем сайта, и за него начислено вознаграждение. Подпишитесь на наш канал в Яндекс.Дзен или telegram-канал @overclockers_news - это удобные способы следить за новыми материалами на сайте. С картинками, расширенными описаниями и без рекламы. реклама