Resumen:
Com o rápido aumento dos níveis de urbanização, tornou-se ainda mais evidente o problema do congestionamento para a sociedade, o meio ambiente e a economia. Uma abordagem prática para aliviar este problema é o controle semafórico adaptativo, do inglês Adaptive Traffic Signal Control (ATSC). A utilização de algoritmos de aprendizado por reforço profundo mostrou grande potencial para esse controle. Entretanto, tais métodos podem ser vistos como caixas pretas, visto que suas políticas aprendidas não são facilmente compreensíveis ou explicáveis. Essa falta de explicabilidade dos algoritmos pode estar limitando seu uso em condições reais. Um framework que pode fornecer explicações para qualquer modelo de aprendizado profundo é o SHAP. Ele considera os modelos como caixas pretas e utiliza técnicas post-hoc para explicálos, fornecendo explicações baseadas na resposta desse modelo com diferentes entradas, sem analisar ou entrar em pontos internos (tais como parâmetros e arquitetura). O então estado da arte, para uso do SHAP com um algoritmo de aprendizado por reforço profundo para controlar semáforos, consegue demonstrar consistência na lógica da tomada de decisão do agente, apresenta também que o agente reage diferentemente conforme o tráfego de cada pista. Todavia, apresenta algumas limitações na explicabilidade encontrada e não consegue demonstrar de forma intuitiva a relação de alguns sensores com as ações escolhidas pelo agente. Além disso, precisa apresentar diversas figuras para entender o impacto dos estados nas possíveis ações. Este trabalho apresenta duas abordagens baseadas no algoritmo Deep Q-Network capaz de explicar a política aprendida através do framework SHAP. Nossa abordagem considera duas técnicas distintas para aproximação de função: XGBoost e Multi-Layer Perceptron. Cada abordagem passou por um processo de estudo e otimização de seus hiperparâmetros. O ambiente foi caracterizado como um MDP e modelado de duas formas diferentes, chamadas MDP Cíclico e MDP Seletor. Cada uma dessas modelagens permitiu escolher diferentes ações e ter representações diferentes do ambiente. Por meio do framework SHAP, ambas abordagens puderam apresentar o impacto das features em cada ação, o que promove a compreensão de como o agente se comporta diante das diferentes condições de tráfego. Este trabalho também apresenta uma descrição sobre a aplicação de IA Explicável no controle semafórico inteligente, demonstrando como interpretar o modelo e as limitações da abordagem. Além disso, como resultado final, as abordagens melhoraram o tempo de viagem, a velocidade e o throughput em dois cenários distintos, superando os baselines FixedTime, SOTL e MaxPressure.