A Inteligência Artificial pode ouvi-lo

Conteúdo Patrocinado

Ver e ouvir andam de mãos dadas quando queremos estar conscientes do que se passa à nossa volta. Assim, em termos de segurança, faz sentido que tanto a percepção áudio como a visual possam ajudar a criar uma melhor imagem do que está realmente a acontecer na área a analisar.

Michiel Salters, M.Sc., Director Técnico, e Jasper van Dorp Schuitman, PhD, cientista sénior da Sound Intelligence, falaram com a Axis sobre a importância da capacidade de identificar e localizar eventos vitais nas suas gravações de segurança utilizando a análise áudio.

Nunca perca um evento

É impossível estar fisicamente presente em todo o lado ao mesmo tempo. E, como a maioria das pessoas, usamos a videovigilância para ver e ouvir o que está a acontecer em todos os lados em que não podemos estar presentes. É suficientemente fácil com apenas algumas câmaras, mas não é prático monitorizar fisicamente muitas câmaras em simultâneo. Quanto tempo seria necessário para descobrir um evento importante numa câmara enquanto se procura noutro lugar? O que perderia? Quais seriam as consequências?

É por isso que a análise baseada em tempo real é tão valiosa – para detectar e categorizar eventos, e alertar um operador para situações de interesse. Quando se pensa em análises baseadas em câmaras, pensa-se provavelmente em análises baseadas em vídeo ou imagem, mas também podem ser análises de áudio. Por exemplo, tiros, agressões e vidros partidos seriam difíceis de detectar com análises baseadas em imagem, mas podem ser rapidamente detectados usando análises de áudio – mesmo que o evento esteja para além do campo de visão da câmara. A detecção precoce deste tipo de eventos significa que o pessoal de segurança ou das forças policiais pode ser dispensado para apaziguar uma situação ou chegar rapidamente às vítimas – potencialmente até salvar vidas.

Mas como é que a análise de áudio distingue um disparo de uma porta que bate? Um grupo de adolescentes barulhentos a divertirem-se ou a terem uma discussão? Embora a detecção precoce de um evento grave seja importante, também o é a minimização do número de falsos alarmes.

Melhor detecção com Machine Learning

A análise de áudio e vídeo são duas formas de Reconhecimento de Padrões, um ramo da Inteligência Artificial (IA). A IA assistiu a uma revolução na última década, impulsionada pelo Machine Learning. Já não é necessário programar cuidadosamente toda a inteligência numa IA, em vez disso, fornece-se à IA dados de amostra e diz-se-lhe para aprender os padrões a partir desses dados. Esta ideia não é nova, mas só se tornou viável recentemente com a disponibilidade de GPU’s acessíveis. Originalmente desenvolvidas para jogos, estas fichas revelaram-se muito mais versáteis do que os seus criadores previam. Os principais algoritmos de aprendizagem de máquinas desenvolvidos na viragem do século tornaram-se subitamente práticos. Felizmente, estas novas técnicas provaram ser muito flexíveis. Os algoritmos de redes neurais para o reconhecimento de imagens estáticas podiam também ser transferidos para a análise de vídeo e áudio.

No entanto, a chave para aplicar com sucesso estas novas técnicas, é o conjunto de dados com que se tem de trabalhar. Treinar e testar correctamente modelos de aprendizagem de máquinas requer conjuntos de dados suficientemente grandes e diversificados para descrever a variedade e os tipos de sons que está interessado em classificar. Na Sound Intelligence, temos dados áudio de numerosos ambientes da vida real – dados que foram recolhidos ao longo dos últimos vinte anos e anotados manualmente internamente. O facto de sermos capazes de aplicar o Machine Learning de ponta num conjunto tão único de dados áudio faz de nós uma empresa líder na indústria do reconhecimento de som da vida real.

Inovação de base comunitária

Sound Intelligence parceiro de desenvolvimento do ano de 2019

O rápido desenvolvimento da IA não foi apenas uma questão de hardware e software. Beneficiou também de uma comunidade aberta e de uma estreita cooperação entre o meio académico e a indústria. As ferramentas de IA estão agora disponíveis gratuitamente porque grandes empresas com grandes departamentos de investigação internos, como o Facebook e o Google, reconhecem que a colaboração acelera o desenvolvimento e beneficia toda a comunidade a longo prazo. De facto, vários fóruns organizam concursos de IA, onde os investigadores são convidados a testar novas ideias e algoritmos em conjuntos de dados públicos.

Um desses fóruns em que nós da Sound Intelligence temos estado envolvidos é o DCASE (Detection and Classification of Acoustic Scenes and Events) – uma série anual de desafios de IA específicos para a análise de áudio. Organizado anualmente desde 2016, combina desafios on-line com um workshop de dois dias onde os vencedores apresentam as suas estratégias de sucesso. Centenas de cientistas das principais universidades, institutos de investigação e indústria reúnem-se para discutir tecnologias de ponta que podem ser utilizadas em soluções futuras.

A Sound Intelligence co-patrocina este evento em conjunto com empresas como a Amazon, Facebook, Google, IBM e Microsoft. O interesse crescente destes grandes nomes mostra que o campo da classificação e detecção do som está a receber cada vez mais atenção. Também servimos como especialistas da indústria na DCASE para rever e julgar os desafios apresentados, premiando aqueles que são mais relevantes na nossa área.

Os desafios do DCASE são uma excelente forma de explorar os limites do que é teoricamente possível – com limitações mínimas no poder e tempo de processamento. Os investigadores que trabalham nas tarefas DCASE têm tipicamente múltiplas GPUs à sua disposição para executar algoritmos muito complexos; por vezes até múltiplos algoritmos em paralelo. No entanto, no mundo real, as aplicações de segurança têm um poder de processamento limitado e as classificações têm de acontecer em tempo real. Um grande desafio para a Sound Intelligence, e para a comunidade de IA em geral, é aplicar técnicas de aprendizagem de máquinas de última geração em dispositivos autónomos para aplicações em tempo real.

Implementação de análises de ponta com a Axis


Para uma implementação prática, a análise precisa de ser executada numa plataforma mais prática. Uma plataforma baseada em extremidades, tal como a Plataforma de Aplicação da Câmara AXIS (ACAP) é uma dessas plataformas, transformando a câmara num dispositivo inteligente. A Axis também fez grandes progressos nos últimos anos com a introdução de mais poder de processamento dentro das suas câmaras de rede e dispositivos de áudio baseados no seu chip ARTPEC. O mais recente ARTPEC-7 System-on-Chip com suporte de hardware para Redes Neurais torna a análise acústica baseada na aprendizagem da máquina ainda mais viável.

Com o aumento do poder de processamento disponível, tanto a análise de vídeo como a de áudio podem funcionar em paralelo. Podem também ser combinados para produzir uma qualidade de detecção ainda melhor, abrindo o caminho para uma futura integração de meta-dados de áudio e vídeo e treino profundo de redes neurais no conjunto de dados combinados.

Inteligência artificial – hoje e amanhã


A Inteligência Artificial está aqui para ficar, e a tecnologia amadurece todos os dias. Ferramentas e conjuntos de dados de fonte aberta tornarão a IA ‘básica’ acessível por todos. A inovação de hardware como a do ARTPEC-7 tornar-se-á comum, permitindo uma IA ainda mais complexa. Com a ampla disponibilidade de ferramentas e hardware, os principais diferenciadores para a próxima década não serão quem tem os melhores componentes de IA, mas quem melhor compreende as necessidades dos clientes e quem tem os conjuntos de dados de melhor qualidade.

As redes neurais profundas de Sound Intelligence são treinadas em ambientes do mundo real e, como resultado, trabalham em ambientes do mundo real. Trabalhando em estreita colaboração com a Axis para melhorar continuamente as nossas respectivas soluções de hardware e software, estamos a satisfazer as necessidades dos clientes numa variedade de segmentos e ambientes industriais.

Michiel Salters, M.Sc. é Director Técnico da Sound Intelligence. Licenciado do grupo de Reconhecimento de Padrões da Universidade de Tecnologia de Delft, trabalhou anteriormente na consultoria CMG e na TomTom. Tem encontrado padrões no tráfego telefónico, engarrafamentos de trânsito e agora em áudio.
Jasper van Dorp Schuitman, PhD é Cientista Sénior da Sound Intelligence. Recebeu o seu doutoramento em física aplicada na Universidade de Tecnologia de Delft e realizou investigação nos campos da reprodução e gravação áudio, acústica de salas, modelação do sistema auditivo humano, marcação de água áudio e impressão digital e detecção de eventos sonoros.






Mais informações:
Maria Santafé
Marketing Specialist
Axis Communications
maria.santafe@axis.com

Conteúdo patrocinado