Dispensar ou Cooperar Com os Humanos? Google DeepMind Testa a Melhor Escolha da IA Com a Teoria Dos Jogos

© Blutgruppe / Getty Images
DeepMind, a unidade de inteligência artificial, pai da Google Alphabet Inc, localizada em Londres, tem vindo a executar uma série de simulações destinadas a responder uma questão chave sobre a IA de uma vez por todas:
- Será que os robôs serão bons ou vão tentar matar todos nós?
A mais recente pesquisa da DeepMind, está focada na dicotomia entre cooperação e competição, especificamente entre agentes optimizados para recompensas (humanos ou sintéticos), em ambientes altamente variáveis.
Embora longe de decidir o destino da humanidade neste momento, as informações colectadas até agora nos dão uma indicação de até que ponto o homem e a máquina podem cooperar no futuro próximo, em tudo, desde os sistemas de transporte à economia.
A equipe está a tentar expandir a zona de conforto dos agentes de IA existentes, numa variedade de formas e mais recentemente através de dois tipos de jogos distintos que baseiam-se fortemente em elementos da teoria dos jogos.
No primeiro jogo, os dois agentes devem competir para reunir tantas maçãs quanto possível, uma premissa directa centrada na escassez e na cooperação. Quanto mais abundantes forem as maçãs, mais provável era que os jogadores cooperassem ou, pelo menos, deixassem o outro sozinho.
No entanto, há uma surpresa: ambos jogadores estão armados com uma arma de raio e podem atordoar o outro jogador a qualquer momento, imobilizando-os por um breve período, permitindo que o agressor reúna mais recursos sem entraves. Isso é classificado como um “comportamento complexo” dentro do jogo, pois requer mais poder de computação, pensamento ou esforço para realizar, ao contrário de uma directriz singular, como uma simples recolha de maçãs.
A equipe da DeepMind descobriu que quanto maior for o nível de inteligência aplicada (ou maior for a rede neural que suporta o agente de software), mais agressivos os agentes de software se tornavam.
O segundo jogo, o jogo do Wolfpack, envolve a caça de presas para uma recompensa. A surpresa aqui, é que outros lobos na área circundante também recebem uma recompensa por uma caça bem sucedida. Quanto mais lobos dentro da área designada, maior a recompensa que cada lobo recebe.
Este jogo recompensou a cooperação (o comportamento complexo neste exemplo) muito mais do que o jogo das maçãs, independentemente de quão inteligentes eram os participantes.
Os investigadores acreditam que há uma propensão para o comportamento mais complexo em cada jogo, especialmente a medida que os agentes se tornam mais inteligentes, ou seja, apontando e evitando um oponente e cooperar para maiores recompensas em cada jogo.
Leibo enfatizou que na actual rodada de experimentos, nenhum dos agentes de software tinha uma memória de curto prazo a funcionar e, portanto, não podia fazer inferências sobre o comportamento de outros sujeitos com base na experiência passada.
“Daqui para frente, seria interessante equipar os agentes com a capacidade de raciocinar sobre as crenças e os objectivos do outro agente” disse ele.
Fonte:
Deixe uma Resposta