Процессоры цифровой обработки сигналов. Многоядерный DSP TMS320C6678

Микропроцессоры — это универсальные цифровые микросхемы, в которых вычислительный блок под управлением программы может выполнять различные действия. В результате все микропроцессоры позволяют обменять свое предельное быстродействие на сложность реализуемого алгоритма. Место микропроцессоров в классификации цифровых устройств приведено на рисунке 1.

Рисунок 1. Классификация микропроцессоров

Однако при создании цифровых устройств на микропроцессорах особенности решаемой задачи накладываются на архитектуру конкретного класса микропроцессоров. Рассмотрим основные задачи, которые приходится решать при обработке сигналов (вне зависимости от аналоговой или цифровой реализации схемы):

суммирование нескольких сигналов;
перенос спектра сигналов;
фильтрация сигналов;
вычисление спектра сигнала (быстрое преобразование Фурье);
помехоустойчивое кодирование (подавление шума для аналоговых систем связи);
формирование кадров (только для цифровых систем связи)
скремблирование сигнала (формирование одинаковой вероятности передачи нулей и единиц)

Последние три пункта из перечисленных видов цифровой обработки сигналов осуществляются на низкой частоте, поэтому обычно для их реализации требуется небольшая часть производительности процессора. Наибольшая производительность требуется при обработке высокочастотных сигналов. Это обусловлено малым временем между соседними отсчетами сигнала. За один и тот же промежуток времени требуется большее количество простых операций.

Теперь рассмотрим две первые задачи. При для выполнения операции требуется одна команда двоичного суммирования. Операция переноса спектра входного сигнала на заданную частоту требует операцию умножения и операцию формирования очередного отсчета синусоидальной функции. Это означает, что данная операция потребует большей производительности процессора по сравнению с предыдущей операцией обработки сигналов. Теперь сравним операцию суммирования и операцию умножения. При умножении двух чисел требуется вычислить несколько частных произведений и просуммировать их. позволяет выполнять операцию умножения за один машинный цикл процессора, поэтому наличие аппаратного умножителя является неотъемлемой чертой сигнальных процессоров.

Теперь проанализируем процесс фильтрации сигналов. При реализации частотных фильтров во временной области приходится осуществлять операцию свёртки. Типовая схема цифрового фильтра приведена на рисунке 2.

Рисунок 2. Типовая схема цифрового фильтра

Из рисунка явно прослеживается последовательность одинаковых участков алгоритма. Многократно приходится умножать цифровой отсчет сигнала на коэфициент фильтра и суммировать результат с предыдущей суммой. При этом следует отметить такую особенность сумматора, как большая разрядность. Для 16-разрядного сигнального процессора разрядность чисел на выходе умножителя будет равна тридцатидвум разрядам. При суммировании нескольких чисел тоже увеличивается разрядность результата. При суммировании 256 одинаковых чисел значение результата увеличится в 256 раз, что соответствует увеличению разрядности числа на восемь разрядов (2 8 =256). Поэтому разрядность сумматора в 16-разрядном сигнальном процессоре будет равна сорока разрядам (32+8=40).

В результате мы сформировали еще одно требование к сигнальному процессору. Сигнальный процессор должен содержать в своем составе не просто аппаратный умножитель, а умножитель-накопитель данных (MAC). Причем операция умножения-накопления должна выполняться за один машинный цикл микропроцессора. Хотелось бы отметить тот факт, что операция умножения-накопления является составной частью не только алгоритма фильтрации, но и (половина базового алгоритма "бабочка")

Теперь поговорим еще об одном методе увеличения быстродействия сигнального процессора. В обычном процессоре применяется одношинная структура операционного блока процессора. В сигнальном процессоре применяется как минимум . Это позволяет одновременно подавать на вход арифметико-логического устройства или умножителя-накопителя два операнда и записывать результат в оперативное запоминающее устройство.

Еще одной важной особенностью микропроцессоров является способ организации циклического выполнения программы (операция умножения-накопления MAC при реализации цифрового фильтра или операция "бабочка" при реализации быстрого преобразования Фурье должны повторяться заданное количество раз). В вычислительном микропроцессоре для организации цикла используется особая переменная — параметр цикла. В конце цикла эта переменная сравнивается с заданным значением (обычно с нулем) и осуществляется переход на начало цикла. В результате алгоритм фильтрации будет выглядеть следующим образом:

Сформировать адрес очередной ячейки линии задержки фильтра
Считать очередной отсчет входного сигнала из линии задержки фильтра
Сформировать адрес очередного коэффициента фильтра
Считать очередной коэффициент фильтра
Умножить отсчет входного сигнала из линии задержки на коэффициент фильтра (чаще всего за несколько машинных циклов)
Просуммировать результат с уже накопленной суммой (сформировать очередной отсчет сигнала на выходе фильтра)
Изменить значение переменной-параметра цикла
Сравнить полученное значение с заданной величиной
Перейти на начало цикла или выйти из него (обычно это длительная процедура, занимающая несколько машинных циклов)

В сигнальных процессорах организация цикла и формирование очередного адреса коэффициента и отсчета фильтра осуществляется аппаратно, поэтому не требует дополнительного времени. Все указанные особенности позволяют увеличить быстродействие сигнального процессора, не увеличивая его тактовую частоту, в результате алгоритмическое быстродействие сигнального процессора при выполнении операций обработки сигналов многократно превосходит быстродействие вычислительного микропроцессора . Перечислим отличительные свойства сигнального процессора:

Наличие аккумулятора-накопителя MAC с 40-разрядным сумматором и аккумулятором
Наличие аппаратного сдвигателя чисел
Наличие аппаратной организации цикла
Наличие двух формирователей адреса
Трехшинная структура операционного блока микропроцессора

Литература:

Вместе со статьей "Особенности сигнальных процессоров" читают:

Цифровые сигнальные процессоры (ЦСП) – это особый вид микропроцессорной техники, предназначенный для работы в реальном времени. Области применения ЦСП:

Цифровая фильтрация сигналов,

Оптимальная обработка, вычисление корреляционных функций,

Спектральный анализ сигналов,

Кодирование и декодирование информации,

Распознавание и синтез речи, синтез и обработка музыки,

Обработка изображений,

Компьютерная графика, синтез изображений,

Измерительная техника.

Главной отличительной особенностью ЦСП является большой объем вычислений, выполняемый в реальном времени. Это определяет следующие отличительные особенности ЦСП:

Применение расширенной гарвардской архитектуры – раздельных памяти команд и данных с независимыми шинами, что позволяет за один такт внутренней частоты кристалла осуществлять выборку команд и их исполнение,

Короткие команды, реализуемые в конвейерных устройствах, обуславливают RISC архитектуру ЦСП,

Обязательное наличие параллельного аппаратного умножителя, выполняющего команды умножения за один такт внутренней частоты кристалла,

Наличие специальных команд обработки сигналов. Например, в семействе процессоров TMS320 фирмы Texas Instruments имеется команда dmov, которая добавляет новый отсчет сигнала к выборке, сдвигая остальные отсчеты на один квант времени, команда LTD загружает множимое в регистр умножителя, осуществляет сдвиг отсчетов сигнала и складывает результат предыдущего умножения с содержимым аккумулятора.

За свою историю развития с начала 80-х годов прошлого века сменилось несколько поколений ЦСП, но ряд ЦСП предыдущих поколений в современном исполнении продолжают выпускаться из-за удачной архитектуры. ЦСП первого поколения TMS32010 разработан фирмой Texas Instruments в 1982 году. Это 16-разрядный микропроцессор с производительностью 5 миллионов команд в секунду (MIPS) имел внутреннее ОЗУ 144-256 слов, ПЗУ 1,5 - 4К слов. АЛУ и аккумулятор 32 разрядные, аппаратный умножитель 16х16 – результат 32 разряда, имелись порты ввода – вывода.

ЦСП второго поколения появились в середине 80-х годов. Это TMS32020, КМОП микропроцессор TMS320C25 с производительностью 10 MIPS. Наиболее интересны ЦСП DSP56000 и DSP56001 производительностью 10 и 25 MIPS соответственно. Их разработала фирма Motorola. Это единственные 24-разрядные ЦСП. Модификации ЦСП такой архитектуры до сих пор выпускаются. Архитектура DSP56001 показана на рис. 7.1. Процессор имеет расширенную гарвардскую архитектуру. ОЗУ данных X и Y имеют отдельные шины адреса YA, XA и данных XD, YD. Кроме того, отдельная шина адреса PA применена для адресации ПЗУ загрузки и ОЗУ программ, имеющих и отдельную шину данных PD. Шина данных GD используется для загрузки программ из host-компьютера по синхронному последовательному интерфейсу. Кроме того, GD используется для обслуживания прерываний от программируемого контроллера прерываний. Блоки коммутации могут передавать данные и адреса между этими шинами, а блоки коммутации внешних шин позволяют выводить из кристалла любую из шин. Генератор управляющих сигналов формирует внешние сигналы управления. К тактовому генератору подключается внешний кварц и он тактирует всю схему.

Рис. 7.1. Архитектура DSP56001

В ПЗУ X и Y записаны отсчеты синуса и косинуса, что позволяет проводить квадратурный прием и обработку. В настоящее время такой ЦСП наиболее часто используется при обработке и синтезе звука.

ЦСП третьего поколения появились на рубеже 80 – 90 годов. Это TMS320C30 - TI, DSP96002 – Motorola, DSP32C AT&T Microelectronics. Особенности этих процессоров – они 32 разрядные, в одном АЛУ могут выполнять целочисленные вычисления и с плавающей точкой, имеют расширенную гарвардскую архитектуру, наличие таймеров и портов ввода – вывода. Модификация ЦСП TMS320C30 выпускается и до настоящего времени – это TMS320VC33-120 и -150. Производительность TMS320VC33-150 150 миллионов операций с плавающей точкой в секунду (MFLOPS).

Его основные параметры:

ОЗУ 34K 32 разрядных слов с двумя параллельными шинами доступа,

Тактовый генератор с возможностью умножения внутренней частоты,

32 разрядное ядро плавающей точки,

4 строба выборки внешних устройств,

Контроллер прерываний,

Начальный загрузчик,

8 40-разрядных регистров повышенной точности,

Один последовательный порт,

Два таймера,

сопроцессор прямого доступа к памяти (ПДП),

144 выводный корпус LQFP.

ЦСП четвертого поколения разрабатывались в 90 –е годы. Здесь произошло разделение ЦСП на относительно дешевые 16-разрядные ЦСП с фиксированной точкой и дорогие производительные 32- 40 разрядные ЦСП с плавающей точкой. ЦСП с фиксированной точкой стали использоваться в связной аппаратуре, модемах, звуковых мультимедийных устройствах, обработке сигналов, среди фирм разработчиков таких ЦСП известны семейства фирмы Analog Devices ADSP. ЦСП с плавающей точкой – для обработки широкополосных сигналов, изображений, в компьютерной графике. Типичным представителем ЦСП с плавающей точкой является TMS320C40 – TI. Архитектура этого ЦСП показана на рис. 7.2. Производительность этого процессора 275 MIPS. Главной особенностью его архитектуры является наличие шины ввода – вывода по прямому доступу в память с сопроцессором. Она предназначена для скоростного обмена через коммуникационные порты 0 – 5 с другими процессорами, образующими MIMD архитектуру. Каждый порт имеет 8 бит данных и 4 сопровождающих сигнала с пропускной способностью 20 Мб/с.

Рис. 7.2. Архитектура TMS320C40

На рис. 7.3 показан вариант топологии связей процессоров.

Рис. 7.3. Топология связей ЦСП

ЦСП пятого и шестого поколений разрабатывались в начале 21 века. Здесь следует отметить разработки фирмы TI – процессоры семейств С5000 и С6000. Семейство С5000 представляет собой семейство дешевых ЦСП с фиксированной точкой, высоким быстродействием и пониженным потреблением 0,9 В, а С6000 – ЦСП с фиксированной и плавающей точкой с производительностью до 1200 MFLOPS.. Некоторые параметры семейства TMS320C55x:

Потребление 0,05 мВ/MIPS,

Производительность 140 – 800 MIPS, включая операции умножения,

Переменная длина команд 8 – 48 бит,

2 умножителя, 2 АЛУ, 4 аккумулятора,

4 регистра данных,

Выборка команд – по 32 разряда.

В настоящее время ЦСП применяются совместно с программируемой логикой. Средства отладки аппаратуры на основе ЦСП и программируемой логики подразделяются на две категории:

Программная поддержка для формирования и отладки машинного кода обработки сигналов в ЦСП (средства генерации кода),

Программно-аппаратная поддержка для интеграции ЦСП с целевой аппаратурой разрабатываемого устройства и средства отладки программы обработки с аппаратной частью в реальном времени.

Эти два вида отладки обычно выполняются разными разработчиками с перекрытием по времени, что ускоряет процесс проектирования и изготовления аппаратуры. На рис. 7.4 приведена структура процесса отладки аппаратуры с ЦСП и программируемой логикой.

Рис. 7.4. Процесс разработки аппаратуры на ЦСП и ПЛИС

В процессе отладки программы ЦСП происходят возвраты и исправление программы, но также точно происходят возвраты и для изменения логики, заложенной в программируемой логике аппаратной части. Таким образом, процесс отладки при применении ЦСП и ПЛИС оказывается существенно более гибким и позволяет менять как программную, так и аппаратную часть.

Каковы особенности развития аппаратуры на основе ЦСП и программируемой логики?

1. Развитие различных параллельных архитектур обработки как в ЦСП, так и в программируемой логике.

2. Развитие соответствующих отладочных средств на основе эмуляторов, симуляторов и интерфейсов тестирования, подобных JTAG.

3. Комбинирование внутри одного кристалла ЦСП и программируемой логики, например в TMS320C54x.

4. Развитие эффективности оптимизирующих компиляторов языков высокого уровня типа С до уровня, чтобы не требовалось ассемблерных вставок в программы.

5. Развитие гетерогенных аппаратных систем на одном кристалле, включающих в себя различные типы микропроцессоров, включая и ЦСП, и оснащение их параллельными многопроцессорными операционными системами реального времени.

Список литературы

1. Супер ЭВМ. Аппаратная и программная организация/ Под ред. С. Фернбаха: Пер. с англ. – М.: Радио и связь, 1991.

2. Хокни Р., Джессоуп К. Параллельные ЭВМ. Архитектура, программирование и алгоритмы: Пер. с англ.-М.: Радио и связь, 1986.

3. Коуги П.М. Архитектура конвейерных ЭВМ: Пер. с англ.-М.: Радио и связь, 1985.

4. Параллельные вычисления/ Под ред. Г.Родрига: Пер. с англ.-М.: Наука, 1986.

5. Пухальский Г.И., Новосельцева Т.Я. Проектирование дискретных устройств на интегральных микросхемах: Справочник. – М.: Радио и связь, 1990.

6. Стешенко В.Б. ПЛИС фирмы ALTERA: проектирование устройств обработки сигналов. - М: ДОДЭКА, 2000.

7. КнышевД.А. ПЛИС фирмы “XILINX ”: описание структуры основных семейств. - М: ДОДЭКА-XXI, 2001.

8. Сикарев А.А., Лебедев О.Н. Микроэлектронные устройства формирования и обработки сложных сигналов. - М.: Радио и связь, 1983.

Сегодня уже забылись популярные в середине восьмидесятых годов среди электронщиков разговоры о степени отставания советской электроники от западной. Тогда судили о степени развития электроники по развитию процессоров к персональным компьютерам. "Железный занавес" делал свое дело, мы тогда даже не могли представить, что советская электроника отстала от западной не на год или два, а навсегда.

Простые советские инженеры, не допущенные на крупнейшие мировые профессиональные семинары по электронике и не посвященные в тайны, разведанные КГБ, могли судить о развитии электроники по программе "Время" и по голливудским фильмам десятилетней давности. После восторгов об электронных штучках Джеймсов Бондов делалось заключение, что: все это спецэффекты кинематографа; все создано на специализированных микропроцессорах (никогда не уточнялось, на каких); и что "у нас, где надо и у кого надо есть вещи и покруче". После таких глубокомысленных выводов советские инженеры с новым творческим порывом в своих НИИ продолжали создавать шедевры на 155-х ТТЛ-микросхемах, или, самые приближенные к военно-промышленному комплексу, на 133-й серии.

К своему стыду, должен признаться, что я также, примерно до середины девяностых годов, подразумевал, что специализированные процессоры - нечто совершенно сложное и невообразимое. Но, к счастью, времена изменились, и первыми специализированными процессорами, с которыми мне довелось познакомиться, стали процессоры цифровой обработки сигналов или сигнальные процессоры (ЦСП, DSP - Digital Signal Processor).

Сигнальные процессоры появились как следствие развития цифровых технологий, которые все шире внедрялись в традиционные "аналоговые" приложения: радио- и проводная связь, видео- и аудиотехника, измерительные и бытовые приборы. Создания специализированных процессоров для обработки сигналов требовали и чисто цифровые устройства: модемы, дисковые накопители, системы обработки данных и т.д. Главная отличительная черта ЦСП от обычных микропроцессоров - максимальная приспособленность к решению задач цифровой обработки сигналов. Это именно "специализированные" контроллеры, специализация которых заключается в такой архитектуре и системе команд, которые позволяли бы оптимально выполнять операции преобразования и фильтрации сигналов в режиме реального времени. У обычных микроконтроллеров команды, выполняющие такие операции, или вообще не предусмотрены, или их работа весьма медленна, что не дает возможности их использования в критичных по скорости процессах. Поэтому применение традиционных микропроцессоров вело, с одной стороны, к неоправданному усложнению и удорожанию схемного решения устройства, с другой - к неэффективному, однобокому использованию возможностей контроллера. ЦСП были призваны решить это противоречие и прекрасно со своей задачей справились.

Сигнальные процессоры появились в начале 80-х годов. Первым широко известным сигнальным процессором стал выпущенный в 1982 году фирмой Texas Instruments ЦСП TMS32010, с производительностью в несколько MIPS (миллионов инструкций в секунду), созданный по 1,2 мкм технологии. Вслед за Texas Instruments ЦСП стали выпускать и другие фирмы. В настоящее время Texas Instruments является лидером по производству ЦСП, ей принадлежит около половины рынка этих контроллеров. Вторым по величине производителем ЦСП является компания Lucent Technologies, которая производит около трети этих устройств. Замыкают четверку лидеров Analog Devices и Motorola, имеющие примерно равную долю рынка и выпускающие вместе примерно четверть всех ЦСП. На долю остальных производителей, хотя среди них находятся такие известные фирмы, как Samsung, Zilog, Atmel и другие, приходятся оставшиеся 5-6 процентов рынка сигнальных процессоров.

Понятно, что законодателями мод среди производителей являются компании-лидеры в этой области и, в первую очередь Texas Instruments. Политика компаний лидеров при производстве и продвижении сигнальных процессоров существенно разнится.

Texas Instruments ставит задачу производства максимально широкого ассортимента, способного перекрыть все возможные применения процессоров при все большей производительности. В настоящее время производительность сигнальных процессоров достигает до 8800 MIPS, и производятся они по технологии от 0,65 мкм до 0,1 мкм. Тактовая частота достигает 1,1 ГГц.

Lucent Technologies ориентируется на крупных производителей конечного оборудования и предлагает свою продукцию через дистрибьюторскую сеть, не прибегая к широкой рекламной компании. Фирма специализируется на ЦСП для телекоммуникационного оборудования, в частности, в таком перспективном в настоящее время направлении, как создание станций сотовой связи.

Analog Devices, напротив, ведет активную маркетинговую политику и рекламную компанию, о чем свидетельствует хотя бы аббревиатура в названии ЦСП этой фирмы SHARK и Tiger SHARK (акула и тигровая акула). В технической области процессоры этой фирмы оптимизированы по энергопотреблению и для построения многопроцессорных систем.

Motorola распространяет свои процессоры, широко используя собственную разветвленную дистрибьюторскую сеть. В архитектуре ЦСП Motorola первой пошла по пути создания на одном кристалле одновременно сигнального процессора и классического микроконтроллера, которые работают как одна система, что значительно облегчает жизнь разработчикам оборудования, упрощая схемное решение.

Архитектура и технологии изготовления ЦСП уже разработаны достаточно хорошо, однако требования устойчивости работы и точности вычислений ЦСП приводят к тому, что не удается избавиться от высокой сложности функциональных устройств, выполняющих обработку данных (особенно в формате с плавающей точкой), что не позволяет существенно снизить издержки при производстве процессоров. Стоимость ЦСП может колебаться от 2 до 180 и более долларов за единицу.

Характеристики ЦСП-процессоров

Отличительными особенностями характеристик сигнальных процессоров являются высокоскоростная арифметика, передача и получение данных в реальном времени и архитектура памяти с множественным доступом.

Любое арифметическое действие в процессе выполнения требует следующих элементарных операций: выборки операндов; выполнения сложения или умножения; сохранения результата или его повторения. Кроме того, в процессе вычислений требуются задержки, выборки значений из последовательных ячеек памяти и копирование данных из памяти в память. В сигнальных процессорах повышение скорости выполнения арифметических операций достигается за счет: параллельного выполнения действий, множественного доступа к памяти (выборка двух операндов и сохранение результата), наличия большого числа регистров для временного хранения данных, аппаратной реализации специальных возможностей: осуществление задержек, умножителей, кольцевой адресации и т.д. В сигнальных процессорах реализуется также аппаратная поддержка программных циклов, кольцевых буферов, возможность извлечения из памяти одновременно нескольких операндов в цикле исполнения команды.

Главным достоинством и отличием между ЦСП и универсальными микропроцессорами является то, что процессор взаимодействует со многими источниками данных в реальном мире. Процессор может получать и передавать данные в реальном времени, не прерывая при этом выполнение внутренних математических операций. Для этих целей непосредственно в чип встраивают аналогоцифровые и цифро-аналоговые преобразователи, генераторы, декодеры и другие устройства непосредственного "общения" с внешним миром.

Построение памяти с множественным доступом достигается, в основном, за счет применения Гарвардской архитектуры. Под Гарвардской архитектурой понимается такая архитектура, которая имеет две физически разделенные шины данных, что позволяет осуществить два доступа к памяти одновременно. Но для выполнения DSP-операций только этого недостаточно, особенно при использовании в команде двух операндов. Поэтому Гарвардская архитектура добавляется еще кэш-памятью, для хранения тех инструкций, которые будут использоваться вновь. При использовании кэш-памяти шина адреса и шина данных остаются свободными, что делает возможным выборку двух операндов. Такое расширение - Гарвардская архитектура плюс кэш - называют расширенной Гарвардской архитектурой или SHARC (Super Harvard ARChitecture).

Конкретные характеристики ЦСП рассмотрим на семействе DSP568xx компании Motorola, в которых совмещены особенности цифровых сигнальных процессоров и универсальных микроконтроллеров.

Ядро DSP56800 является программируемым 16-разрядным КМОП-процессором, предназначенным для выполнения цифровой обработки сигналов в реальном масштабе времени и решения вычислительных задач, и состоит из четырех функциональных устройств: управления, генерации адресов, АЛУ, обработки битов. Для увеличения производительности операции в устройствах выполняются параллельно. Каждое из устройств может функционировать независимо и одновременно с тремя другими, т.к. имеет свой набор регистров и логику управления. Ядро реализует одновременное выполнение нескольких действий: устройство управления выбирает первую команду, устройство генерации адресов формирует их адреса второй команды, а АЛУ выполняет умножение третьей команды. Широко используются совмещенные передачи и выполнение операций.

Встроенная память может содержать (для семейства):

Флэш-память программ до 60К

Флэш-память данных до 8К

ОЗУ-программ до 2К

ОЗУ-данных до 4К

Флэш-память программы загрузки 2К

На микрочипах семейства реализовано большое количество периферийных устройств: ШИМ-генераторы, 12-разрядные АЦП с одновременной выборкой, квадратурные декодеры, четырехканальные таймеры, контроллеры CAN-интерфейса, двухпроводные последовательные коммуникационные интерфейсы, последовательные интерфейсы, программируемый генератор с ФАПЧ для формирования тактовой частоты ядра DSP и др.

Общие характеристики

Производительность 40 MIPS при тактовой частоте 80 МГц и напряжении питания 2.7:3.6 В;

Однотактный параллельный 16х16 умножитель-сумматор;

Два 36-разрядных аккумулятора, включая биты расширения;

Однотактное 16-разрядное устройство циклического сдвига;

Аппаратная реализация команд DO и REP;

Три внутренние 16-разрядные шины данных и три 16-разрядные шины адреса;

Одна 16-разрядная шина внешнего интерфейса;

Стек подпрограмм и прерываний, не имеющий ограничения по глубине.

Микросхемы семейства DSP568хх предназначены для применения в недорогих устройствах, бытовой технике, для которой необходима низкая стоимость и не требуются сверхвысокие параметры: проводные и беспроводные модемы, системы беспроводной передачи цифровых сообщений, цифровые телефонные автоответчики, цифровые камеры, специализированные и многоцелевые контроллеры, устройства управления серводвигателями и электродвигателями переменного тока.

В общем случае сигнальные процессоры уже достигли такой стадии своего развития, что могут применяться в устройствах, находящихся от космических станций до детских игрушек.

Насколько неожиданными могут быть применения сигнальных процессоров, мне пришлось не так давно убедиться именно на примере игрушки. Однажды ко мне обратился знакомый и попросил починить говорящую куклу, которую подарили его дочери немецкие знакомые. Кукла, и правда, была замечательной, по словам знакомого, она понимала до полусотни фраз и "сознательно" поддерживала разговор. В Германии стоила сто пятьдесят марок, что навело меня на размышления, что о поломке куклы более жалеют родители, чем их чадо. Дочурка и так любила куклу, тем более что до того как стать немой, та разговаривала на немецком языке. Без всякой надежды на успех взялся я за ремонт этой куклы. Напильником спилил эпоксидную смолу, которой была залита схема и, под толстым-толстым слоем эпоксидки, обнаружил полдесятка корпусов микросхем, центральным из которых был ЦСП к DSP56F... последние цифры, к сожалению, безвозвратно стерлись. Заставить куклу заговорить так и не удалось, и насколько добавлял ей интеллекта сигнальный процессор, я, увы, так и не определил. Как потом оказалось, старший сын моих знакомых, чтобы заставить куклу кричать погромче, вначале подсоединял к ней напряжение вместо 3 в, 4,5 вольта, что было еще не "смертельно", и игрушка хоть и хрипела, но орала, ну а после 220в... . Отсюда первый вывод - высокие технологии хороши, но не всегда и не везде. Вывод второй - вскоре, возможно, ЦСП мы сможем увидеть в кухонной посуде, обуви и одежде, по крайней мере, технических препятствий к тому нет.

В статье рассмотрены основные параметры цифровых сигнальных процессоров (DSP) и их влияние на выбор подходящей микросхемы, а также описано текущее состояние рынка DSP.

Выбирая обувь, мы хотим, чтобы она была модной, удобной и высокого качества, поэтому мы отдаем предпочтение известным маркам, тем фирмам, которые уже хорошо известны и занимают на рынке далеко не последние места. Теперь нужно определиться: для чего нам нужна эта обувь? Если для утренней пробежки, то лучше все-таки купить кроссовки, а для корпоративного вечера - туфли. А что обувать в горах? В этом случае нужна специальная крепкая обувь с твердой подошвой - вибрамы. А чем хуже DSP? Выбирая цифровой сигнальный процессор, не плохо было бы представлять существующий рынок DSP, знать основных производителей и направления развития создаваемых ими процессоров.

DSP-процессоры предназначены для осуществления цифровой обработки сигнала - математических манипуляций над оцифрованными сигналами. Они широко применяются в беспроводных системах, аудио- и видеообработке, системах управления. С ростом числа приложений, использующих DSP, и сложности алгоритмов обработки увеличивается и требования к ним в плане повышения быстродействия и оснащенности интерфейсными и другими специализированными узлами. К настоящему времени появилось множество типов DSP, как универсальных, так и ориентированных на достаточно узкий круг задач.

Естественно, ни один из процессоров не может подойти для всех приложений. Поэтому первая задача разработчика - выбор процессора, наиболее подходящего по производительности, цене, наличию определенной периферии, потреблению мощности, простоте использования и другим критериям.

Например, для таких портативных устройств, как мобильные телефоны, портативные цифровые плееры, стоимость, степень интеграции и потребляемая мощность являются первостепенными, а максимальная производительность зачастую не нужна (т.к. обычно влечет за собой значительное повышение потребляемой мощности, не давая преимуществ при обработке относительно низкоскоростных аудиоданных).

В то же время для гидроакустических или радиолокационных систем определяющими параметрами являются скорость работы, наличие высокоскоростных интерфейсов и удобная система разработки, а стоимость является второстепенным критерием. Кроме того, во многих случаях имеет смысл учитывать и место на рынке, занимаемое поставщиком процессора, т.к. далеко не все производители могут предоставить в ваше распоряжение спектр процессоров, покрывающих все ваши потребности. Сложившееся к настоящему времени распределение рынка между ведущими поставщиками (см. табл. 1) показывает, что 4 компании, стоящие в начале списка, поставляют более 80% всех используемых в мире DSP. Именно эти компании наиболее известны и на российском рынке, и их продукция часто упоминается.

Таблица 1. Основные производители DSP и принадлежащие им доли рынка

Компании-лидеры рынка	Company Name	Доля рынка DSP
1	Texas Instruments	54,3%
2	Freescale Semiconductor	14,1%
3	Analog Devices	8,0%
4	Philips Semiconductors	7,5%
5	Agere Systems	7,3%
6	Toshiba	4,9%
7	DSP Group	2,2%
8	NEC Electronics	0,6%
9	Fujitsu	0,4%
10	Intersil	0,3%
	Other Companies	0,5%
	Total	100,0%

Следует помнить, что производители DSP, проектируя новые микросхемы, достаточно четко позиционируют их для использования в тех или иных приложениях. Это оказывает влияние и на их архитектуру, и на быстродействие, и на оснащение процессора тем или иным набором периферийных модулей. В таблице 2 показано позиционирование DSP с точки зрения их создателей.

Таблица 2. Области применения семейств сигнальных процессоров разных производителей

Обработка видео, видеонаблюдение, цифровые камеры, 3D графика	TMS320DM64x/DaVinci, TMS320C64xx, TMS320C62xx (TI), PNX1300, PNX1500, PNX1700 (Philips) , MPC52xx (Freescale)
Обработка аудио, распознавание речи, синтез звука	TMS320C62xx, TMS320C67xx (TI), SHARC (Analog Devices)
Портативные медиа устройства	TMS320C54xx, TMS320C55xx (TI), Blackfin (Analog Devices)
Беспроводная связь, телекоммуникации, модемы, сетевые устройства	TMS320C64xx, TMS320C54xx, TMS320C55xx (TI), MPC7xxx, MPC86xx, MPC8xx PowerQUICC I, MPC82xx PowerQUICC II, MPC83xx PowerQUICC II Pro, MPC85xx PowerQUICC III (Freescale), Blackfin, TigerSHARC (Analog Devices), PNX1300 (Philips)
Управление приводами, преобразование мощности, автомобильная электроника, предметы домашнего обихода, офисное оборудование	TMS320C28xx, TMS320C24xx (TI), ADSP-21xx (Analog Devices), MPC55xx, MPC55xx (Freescale)
Медицина, биометрия, измерительные системы	TMS320C62xx, TMS320C67xx, TMS320C55xx, TMS320C28xx (TI), TigerSHARC, SHARC (Analog Devices)

Формат данных и разрядность

Одна из основных характеристик цифровых сигнальных процессоров - формат обрабатываемых данных. Все DSP работают либо с целыми числами, либо с числами в формате с плавающей точкой, причем для целых чисел разрядность составляет 16 или 32, а для чисел с плавающей точкой она равна 32. Выбирая формат данных, необходимо иметь в виду следующее: DSP с целочисленными данными (или данными с фиксированной точкой) обычно дешевле и обеспечивают большую абсолютную точность при равной разрядности (т.к. на мантиссу в 32-битном процессоре с фиксированной точкой отводятся все 32 бита, а в процессоре с плавающей точкой - только 24).

В то же время динамический диапазон сигналов, с которыми могут без искажений работать процессоры, у процессоров с фиксированной точкой значительно уже (на несколько десятичных порядков). При относительно простых алгоритмах обработки это может быть неважно, т.к. динамический диапазон реальных входных сигналов чаще всего меньше, чем допускает DSP, однако в некоторых случаях возможно возникновение ошибок переполнения при выполнении программы. Это приводит к принципиально неустранимым нелинейным искажениям выходного сигнала, аналогичным искажениям из-за ограничения в аналоговых схемах.

Следовательно, при выборе DSP необходимо тщательно анализировать алгоритм обработки и входные сигналы для правильного выбора разрядности и типа арифметики. Иногда при невозможности подобрать подходящий процессор с плавающей точкой (из-за большей его стоимости или энергопотребления) используют DSP с фиксированной точкой и сжатие динамического диапазона обрабатываемых сигналов (компрессию), однако это приводит к увеличению сложности алгоритма обработки сигнала и повышает требования к быстродействию.

Конечно, можно эмулировать операции с плавающей точкой и на процессоре с целочисленной арифметикой или перейти к обработке чисел удвоенной разрядности, однако это также значительно усложняет программу и значительно снижает быстродействие.

Несмотря на все ограничения, большинство встроенных приложений используют процессоры с фиксированной точкой из-за меньшей цены и энергопотребления. Увеличение количества разрядов повышает стоимость, размер кристалла и число необходимых выводов процессора, а также необходимый объем внешней памяти. Поэтому разработчики стремятся использовать кристалл с минимально возможной разрядностью.

Стоит заметить, что разрядность данных и разрядность команд процессоров не всегда эквивалентны.

Скорость

Ключевой параметр при выборе процессора - это скорость. Она влияет на время выполнения обработки входного сигнала и, следовательно, определяет его максимальную частоту. Одна из самых частых ошибок разработчика - отождествление тактовой частоты и быстродействия, что в большинстве случаев неправильно. Очень часто скорость работы DSP указывают в MIPS (миллионах инструкций в секунду). Это наиболее просто измеряемый параметр.

Однако проблема сравнения скорости различных DSP состоит в том, что процессоры имеют различные системы команд, и для выполнения одного и того же алгоритма разными процессорами требуется разное число этих команд. Кроме того, иногда для выполнения различных команд одним процессором требуется различное количество тактов синхронизации. В результате процессор со скоростью 1000 MIPS вполне может оказаться в разы медленнее процессора со скоростью 300 MIPS, особенно при различной их разрядности.

Одно из решений этой проблемы - сравнивать процессоры по скорости выполнения определенных операций, например, операции умножения с накоплением (MAC). Скорость выполнения таких операций критична для алгоритмов, использующих цифровую фильтрацию, корреляцию и преобразования Фурье. К сожалению, такая оценка также не дает полной информации о реальном быстродействии процессора.

Наиболее точной является оценка скорости исполнения определенных алгоритмов - например, КИХ- и БИХ-фильтрации, однако это требует разработки соответствующих программ и тщательного анализа результатов тестирования.

Существуют компании, занимающиеся анализом и сравнением процессоров по основным характеристикам, в том числе и по скорости. Лидером среди таких компаний является BDTI - Berkeley Design Technology, Inc. (www.bdti.com). В качестве примера на рисунке 1 показано сравнение по скорости современных DSP разных производителей.

Рис. 1. Пример сравнения быстродействия различных DSP с фиксированной точкой

Организация памяти

Организация системы памяти процессора влияет на производительность. Это связано с тем, что ключевые команды DSP являются многооперандными и ускорение их работы требует одновременного чтения нескольких ячеек памяти. Например, команда MAC требует одновременного чтения 2 операндов и самой команды для того, чтобы ее можно было выполнить за 1 такт. Это достигается различными методами, среди которых применение многопортовой памяти, разделение на память программ и память данных (Гарвардская архитектура), использование кэша команд и т.д.

Необходимый объем памяти определяется приложением. Необходимо учитывать, что встроенная в процессор память обычно имеет значительно большую скорость работы, чем внешняя, однако увеличение ее объема увеличивает стоимость и энергопотребление DSP, а ограниченный объем памяти программ не позволяет хранить сложные алгоритмы. В то же время при достаточности этого объема для ваших целей наличие встроенной памяти позволяет значительно упростить конструкцию в целом и понизить ее размеры, энергопотребление и стоимость.

Большинство DSP с фиксированной точкой, применяющиеся во встраиваемых приложениях, предполагают малый объем внутренней памяти, обычно от 4 до 256 Кбайт и невысокую разрядность внешних шин данных.

В то же время DSP с плавающей точкой обычно предполагают работу с большими массивами данных и сложными алгоритмами и имеют либо встроенную память большого объема, либо большую разрядность адресных шин для подключение внешней памяти (а иногда и то, и другое). Еще раз подчеркнем - выбор типа и объема памяти должен быть результатом тщательного анализа приложения, в котором используется DSP.

Удобство разработки приложений

Степень сложности разработки определятся приложением. При этом необходимо иметь в виду, что большее удобство для разработчика (обычно связываемое с использованием при программировании DSP языков высокого уровня) в большинстве случаев оборачивается получением менее компактного и быстрого кода, что оборачивается необходимостью использования более мощных и дорогих DSP. С другой стороны, в современных условиях скорость разработки (и, следовательно, выхода нового изделия на рынок) может принести больше выгод, чем затраты времени на оптимизацию кода при написании программы на ассемблере.

Кроме того, следует помнить, что безошибочных программ не бывает, поэтому средства отладки и возможность коррекции программ в готовом устройстве очень часто имеют первостепенное значение. В то же время при выборе DSP и средств разработки необходимо учитывать некоторые особенности архитектуры процессоров.

Те, кто использует компиляторы с языков высокого уровня (ЯВУ), иногда замечают, что они генерируют лучший код для процессоров с плавающей точкой. Это происходит по нескольким причинам: во-первых, большинство языков высокого уровня изначально не поддерживают арифметику с фиксированной точкой, во-вторых, система команд DSP с фиксированной точкой более ограничена, и в-третьих, процессоры с плавающей точкой обычно накладывают меньшие ограничения на объем используемой памяти.

Наилучшие результаты получаются при компиляции программ на ЯВУ для VLIW-процессоров (процессорах со сверхдлинным словом команды) с простой ортогональной RISC-системой команд и большими регистровыми файлами. Однако даже для этих процессоров генерируемый компилятором код получается более медленным по сравнению с оптимизированным вручную ассемблерным. С другой стороны, возможность сначала смоделировать процесс обработки сигнала в программе типа MathLab с дальнейшей автоматической трансляцией его в программу для DSP позволяет избавиться от множества серьезных ошибок еще на начальном этапе разработки.

Отладку готовых программ можно производить либо на аппаратном эмуляторе готовой системы, либо на программном симуляторе. Обычно отладка на симуляторе несколько проще с точки зрения используемой аппаратуры, однако она не позволяет выявить все возможные ошибки. Почти все производители обеспечивают разработчиков и симуляторами, и эмуляторами своих DSP. Почти все современные DSP поддерживают внутрисхемную эмуляцию в соответствии со стандартом IEEE 1149.1 JTAG. При использовании технологии JTAG мы переходим от эмуляции процессора внешним устройством к непосредственному контролю над процессором при выполнении программы, что позволяет значительно увеличить степень соответствия макета реальному устройству и, следовательно, повысить надежность процесса отладки.

Помимо эмуляторов, производители предлагают широкий набор так называемых «стартер-китов» и «оценочных модулей», с помощью которых можно сразу приступить к разработке приложения, не дожидаясь изготовления макета разрабатываемого устройства. Кроме этого, в некоторых приложениях эти средства разработки можно использовать как конечные устройства.

Энергопотребление

DSP-процессоры широко используются в мобильных устройствах, где потребление мощности является основной характеристикой. Для снижения энергопотребления используется множество методов, в том числе уменьшение напряжения питания и введение функций управления потреблением, например, динамического изменения тактовой частоты, переключения в спящий или дежурный режим или отключения неиспользуемой в данный момент периферии. Следует отметить, что эти меры оказывают значительное воздействие на скорость работы процессора и при некорректном использовании могут привести к неработоспособности проектируемого устройства (в качестве примера можно привести некоторые сотовые телефоны, которые в результате ошибок в программах управления энергопотреблением иногда переставали включаться) или к ухудшению его эксплуатационных характеристик (например, значительному времени восстановления работоспособности при выходе из спящего режима).

Оценка потребления мощности является не простой задачей, так как эта величина варьируется в зависимости от выполняемых процессором задач. К сожалению, большинство производителей публикуют только «типичное» и «максимальное» потребление, а что понимается под этими определениями, не всегда ясно. Исключением является компания Texas Instruments, которая указывает потребление мощности в зависимости от типа команды и конфигурации процессора.

Стоимость

Стоимость процессора, несомненно, является определяющей величиной при выборе DSP, особенно при больших объемах производства. Обычно разработчики стремятся выбрать наиболее дешевый процессор, однако следует учитывать, что это может привести к значительным затратам на переделку устройства, если выбранный процессор по какимлибо причинам не позволит добиться нужных характеристик. Кроме того, при выборе процессора по критерию стоимости необходимо принимать во внимание стоимость внешних компонентов (например, DSP со встроенной памятью достаточного объема стоит дороже аналогичного без встроенной памяти, но цена устройства в целом на его основе может быть значительно ниже из-за отсутствия других компонентов и меньшего размера печатной платы). Очень значимым фактором, влияющим на стоимость DSP, является тип его корпуса: ИС в керамических корпусах, рассчитанные на промышленные или специальные условия эксплуатации, стоят значительно дороже таких же ИС, работающих в коммерческом диапазоне температур. И, наконец, цена процессора очень сильно зависит от объема и регулярности поставок.

Методология выбора процессора

Как показано ранее, правильный выбор DSP сильно зависит от приложения: процессор может хорошо подходить для одних приложений, но абсолютно не подходить для других. При выборе процессора нужно определить самые важные в конкретном случае характеристики и расставить их по степени важности. Затем в соответствии с этими критериями отобрать возможных кандидатов и, наконец, выбрать из подходящих лучший, обращая внимание на дополнительные, не критичные характеристики. При этом целесообразно воспользоваться оценкой характеристик процессоров, производимой какой-либо авторитетной компанией (например, BTDI). Следует помнить, что BTDI производит оценку DSP не только по быстродействию, но и по другим критериям: эффективности памяти, энергопотреблению и т.д.

Например, для реализации приложения для нас в первую очередь важны скорость, цена, эффективность работы памяти и энергопотребление. Мы определили основных претендентов, среди которых DSP с ядром C64x и C64x+ от Texas Instruments и TigerSHARC от Analog Devices. На рисунке 2 показан граф сравнительных характеристик этих процессоров по критериям скорости, стоимости, энергопотребления и удобству средств разработки.

Рис. 2. Диаграмма для выбора DSP

Теперь приоритеты. Если нам в первую очередь необходима высокая скорость и низкая цена, мы выбираем Texas Instruments. Если мы конструируем мобильное устройство и нам нужно низкое энергопотребление, причем мы готовы пожертвовать скоростью, берем Analog Devices. Не исключена вероятность того, что выбранные процессоры окажутся очень близки по ключевым параметрам. В этом случае выбор будет определяться некритичными характеристиками: доступностью средств отладки, предыдущим опытом разработчика, доступностью компонентов и т.д.

Тщательный выбор цифрового сигнального процессора еще на начальном этапе разработки может помочь избавиться от излишних затрат, связанных с выбором неподходящего DSP, и сократить как время разработки в целом, так и время и средства на выявление ошибок.

Литература

Jeff Bier, Choosing a Processor: Benchmarks and Beyond (S043), Berkeley, California: Berkeley Design Technology, Inc., USA, 2006.
Choosing a DSP Processor, Berkeley, California: Berkeley Design Technology, Inc., USA, 2000.