A equipe do projeto “Acesso a Oportunidades do PDE de São Paulo” se debruçou sobre o desafio de construção de uma base de dados pública sobre novas edificações na cidade de São Paulo a partir dos dados de registros de alvarás de licenciamento gerados pelo Sistema de Administração do Código de Obras e Edificações (SISACOE). O conjunto de dados georreferenciados alvaras_por_lote está disponível no catálogo de dados e é resultante da série de tratamentos aplicados aos dados brutos do SISACOE.
Após todos os procedimentos de extração, transformação e carregamento de dados, foram identificados um total de 5.832 empreendimentos residenciais licenciados para execução de edificação nova em São Paulo entre 2013 e 2021. O conjunto de dados tratados apresenta 44 variáveis com informações de diferentes naturezas sobre os empreendimentos, incluindo novos atributos criados pela combinação de atributos originais disponibilizados nos dados brutos e outros criados a partir da integração dos dados com outros dados urbanos.
Alguns exemplos da visualização de dados que foi desenvolvida a partir deste conjunto de dados podem ser vistos nas notas técnica do projeto Acesso Oportunidades no PDE de São Paulo. A lista de variáveis disponíveis na base de dados gerada pelo tratamento descrito até este momento está disponível no dicionário de dados.
Trazemos aqui algumas explicações adicionais a respeito dos dados brutos e do processo de tratamento:
I. Registros de alvarás de licenciamento da PMSP/SMUL
a. Os relatórios de licenciamento imobiliário da PMSP/SMUL
b. Dados disponíveis e opção pelos alvarás de licenciamento
II. O processo de tratamento dos alvarás no projeto “Acesso a Oportunidades no PDE de São Paulo”
a. Visão Geral
b. Ferramentas
c. Etapas do tratamento de dados
d. Legislação aplicável (PDE e LPUOS)
A Prefeitura Municipal de São Paulo produz e disponibiliza publicamente diferentes relatórios derivados do processo de licenciamento imobiliário na cidade, como podemos observar em seu portal na web. Registros de processos relativos à aplicação da quota ambiental e da cota de solidariedade figuram como dados interessantes para se monitorar a aplicação desses instrumentos e registros de processos nos sistemas “Aprova Digital” e “Aprova Rápido” que visam simplificar o processo de licenciamento também surgem como dados potencialmente interessantes para o monitoramento. Mas é na série histórica de registros cadastrais da Prefeitura de São Paulo gerados pelo SISACOE que estão concentrados aqueles dados que foram entendidos como sendo os mais pertinentes para a atividade de Monitoramento de novas edificações na cidade.
O conjunto original de dados do SISACOE é constituído por tipos diversos de alvarás de licenciamento imobiliário residencial e comercial registrados na cidade desde janeiro de 2000 até o mês presente e foi tornado acessível por intermédio do Sistema SEL (SISSEL). Segundo informação oferecida em uma notícia no sítio oficial da prefeitura, podemos inferir que o SISSEL é um aplicativo que visa facilitar a interface do SISACOE com o usuário (o servidor público responsável por realizar licenciamento) e, ao mesmo tempo, gerar relatórios automatizados integrados a sistemas de registros de processo administrativo. Mas não foram encontradas muitas explicações públicas acerca do funcionamento do SISACOE e do SISSEL e nem de como a relação entre os dois sistemas produz os relatórios disponibilizados ao público. Os registros do SISSEL são disponibilizados para o público geral em formato de planilhas (.xlsx) no site oficial da Prefeitura.
Pesquisadores e outras partes interessadas na dinâmica imobiliária paulistana possuem à sua disposição algumas fontes de dados que variam em termos de cobertura temporal, da natureza do dado, da completude de observações, de atributos, da facilidade de acesso pelo usuário, etc.. A fim de delinearmos um panorama geral de conjuntos de dados disponíveis, podemos listar como opções possíveis:
A equipe do projeto “Acesso a Oportunidades do PDE de São Paulo” se debruçou sobre o desafio de construção de uma base de dados pública sobre novas edificações na cidade de São Paulo a partir dos dados de registros de alvarás de licenciamento gerados pelo Sistema de Administração do Código de Obras e Edificações (SISACOE). O fato de este dado ser um dado público, gratuito, de caráter oficial o torna, obviamente, bastante interessante para quem busca monitorar o mercado imobiliário formal. Mas, para além desta questão, razão para a escolha de trabalhar está embasada em duas principais vantagens esperadas de se realizar a inferência sobre a dinâmica imobiliária a partir deste conjunto de dados:
De acordo com o catálogo de dados da PMSP, os dados do SISACOE são de responsabilidade da Secretaria Municipal de Urbanismo e Licenciamento da Prefeitura de São Paulo (PMSP/SMUL), mais especificamente da Coordenadoria de Cadastro, Análise de Dados e Sistema Eletrônico de Licenciamento – CASE e da Supervisão de Licenciamento Eletrônico e Análise de Dados – STEL. E segundo o decreto nº 60.061/2021 (decreto de competências da SMUL) é atribuição da SMUL/CASE/STEL a gestão do SISACOE além da produção de relatórios e indicativos relacionados à política municipal de licenciamento.
Apesar desses aspectos vantajosos, os registros do SISACOE são menos estruturados que outras alternativas para pesquisar o mercado imobiliário, conforme mencionado anteriormente. Há quantidade significativa de erros de registro e de ruído nos dados, além da possibilidade de estarem incluídos empreendimentos que tiveram alvará de execução emitido sem serem de fato realizados. Essa escolha de pesquisa implicou, portanto, no enfrentamento do considerável desafio de se transformar o conjunto de dados administrativos disponibilizado pela prefeitura em um conjunto mais interpretável e mais confiável de dados.
Para chegarmos a um conjunto de dados mais coeso e mais confiável enquanto base de evidências, foi necessário aplicar uma série de decisões de seleção, visualização, georreferenciamento e engenharia de atributos aos compilados anuais de licenciamentos disponibilizados pela PMSPM/SMUL via SISSEL/SISACOE. Também foi necessário corrigir importantes inconsistências no registro de licenciamento que demandam tratamento muito específico, tais como duplicatas, erros de digitação e, principalmente, a computação de variáveis numéricas que estão em formato de texto irregular. Trazemos a seguir explicações sobre:
Para chegarmos a um dado capaz de gerar informação acionável, além de ajustes relacionados à normalização do conjunto de dados stricto sensu, foi também necessário criar algumas classificações para fins analíticos que foram fruto de interpretações de caráter qualitativo dos especialistas que trabalharam no projeto e de deduções desenvolvidas a partir de um ou mais atributos dos empreendimentos. Podendo ser destacados:
Todo o processo de tratamento dos dados brutos e de análise exploratória da base tratada foi elaborado em linguagem R, com intermédio da IDE RStudio, da ferramenta RMarkdown para produção de relatórios automatizados e de livrarias/pacotes de repositórios públicos disponibilizados no CRAN – Compreensive R Archive Network. Cabe acrescentar que, para a confecção de mapas, o software QGIS também foi utilizado como recurso em momentos oportunos. Para fins de compromisso com a reprodutibilidade e a replicabilidade da pesquisa, a base de dados tratada está sendo disponibilizada ao final do projeto por meio do Portal de Dados Urbanos do Insper e o conjunto de scripts e procedimentos de tratamento dos dados desenvolvidos serão disponibilizados publicamente em formato open source por meio do repositório do Laboratório Arq.Futuro no Github.
É essencial também destacar que a implementação do tratamento dos dados de licenciamento imobiliário de São Paulo foi fruto de uma cooperação técnica estabelecida entre o Laboratório Arq.Futuro de Cidades do Insper e a Associação Brasileira de Incorporadores Imobiliários (ABRAINC). Partes fundamentais das decisões de tratamento foram inspiradas ou mesmo herdadas de iniciativa predecessora implementada do Sistema Urbinet – projeto que é desenvolvido e mantido pela ABRAINC para consumo interno. As rotinas de tratamento do Urbinet foram compartilhadas com a equipe do projeto e traduzidas da linguagem Java para a linguagem R. Exercício este entendido também como oportunidade de não apenas traduzir literalmente decisões de tratamento, mas de fazer aperfeiçoamentos. O processo de validação do tratamento de dados também contou com o apoio da equipe técnica da ABRAINC.
Podemos listar como decisões críticas no tratamento dos dados de alvarás de licenciamento no projeto Acesso a Oportunidades no PDE-SP:
O quadro-resumo “resumo_tratamento_alvaras_por_lote.xlsx” está disponível para acesso no catálogo de dados e traz mais detalhes sobre quais foram os gargalos técnicos identificados e qual a metodologia de tratamento utilizada no projeto Acesso a Oportunidades no PDE para contorná-los. Informações adicionais e conteúdos mais específicos para desenvolvedores estão sendo disponibilizados no repositório do projeto no GitHub.
O conjunto de dados original não traz o registro da regulação urbana que incide sobre um determinado alvará. É razoável imaginar que a data de emissão da autuação do processo tem forte relação com a legislação aplicável naquele momento. No entanto, não há como deduzir diretamente se a legislação que incide no alvará específico é aquela que irá regular o novo empreendimento, em especial pela existência do direito de protocolo, situação em que o empreendedor pode optar entre a legislação vigente e a anterior. Para contornar este problema, foram desenvolvidos critérios determinantes da legislação incidente sob a nova edificação.
Em tese, o conjunto de dados disponibilizados pela PMSP/SMUL na plataforma Gestão Urbana como patê do processo de monitoramento do PDE traz consigo uma atribuição de legislação incidente nos alvarás. Contudo, há um grande universo de alvarás sem esta atribuição na base tratada pela prefeitura, sendo necessário pensar em critérios adicionais para termos uma visão satisfatória sobre a regulação incidente. A Árvore de decisão e nomenclaturas utilizadas para a classificação encontram-se no quadro-resumo “tipologia_legislacao.xlsx”.
Para os alvarás sem informações, o primeiro critério de classificação utilizou as informações da coluna original “zoneamento”. Neste universo, foi inicialmente utilizada a nomenclatura específica a cada Lei de Parcelamento, Uso e Ocupação do Solo (2004 e 2016). Desta forma, zonas que se claramente se referem à Lei 13.885/04, foram classificadas como tal. O mesmo vale para Lei 16.402/16 (ver listagem de nomes de zonas passíveis de aplicação direta) e PDE 2014 (quando denominado EETU). Em seguida, para as zonas que possuem nomenclatura similar nas legislações, foram utilizados critérios cruzados entre nomenclatura e informações da coluna zoneamento antigo5. E por fim, foram analisados caso a caso quando denominados por tipos de ZEIS que não apresentavam clareza dos critérios acima elencados. Para estes, foi consultado o sítio eletrônico “De olho na obra” para verificação do alvará e em outros casos o SIMPROC, para leitura do despacho no diário oficial.
Foi identificada então a legislação incidente em cada empreendimento a partir de três categorias:
Na primeira categoria encontram-se os empreendimentos protocolados e regulados pela legislação urbana anterior, a última representa os empreendimentos licenciados sob a atual legislação. Já a segunda categoria refere-se a empreendimentos protocolados entre 2014 e 2016 e que seguem regimentos híbridos, com certos regramentos já alterados pelo PDE-2014, mas ainda tendo por base a LPUOS-2004. O gráfico abaixo mostra a incidência, entre 2013 e 2021, das três categorias identificadas.
Os empreendimentos e suas respectivas métricas foram classificados em duas grandes categorias de acordo com categorias comumente utilizadas nas análises habitacionais. Empreendimentos Residenciais Populares (ERP) são os empreendimentos classificados pela Prefeitura de São Paulo, de acordo com os critérios definidos no PDE-2014, como HIS 1, HIS 2 e Habitações de Mercado Popular (HMP). Já os Empreendimentos Residenciais de Mercado (ERM) são os empreendimentos classificados como R2V e R2H.
É importante ressaltar que pode haver categorias de uso variadas sendo atribuídas ao mesmo empreendimento, uma vez que alvarás individualizados podem se referir a usos diferentes do terreno ou compor um tipo de uso de diferentes padrões de produto imobiliário dentro do mesmo lote. Para alguns casos em que havia um grau de pertinência do empreendimento tanto ao grupo ERP quanto ao grupo ERM, tomou-se a decisão de definir como prevalecente o grupo ERP.
A definição de zoneamento é atribuída ao empreendimento pelo georreferenciamento, tomando como referência não o zoneamento do momento do registro, mas o zoneamento atribuído ao lote do empreendimento na legislação atual. Para tornar este atributo mais apto à produção de informações relevantes, as 35 zonas definidas pela LPUOS-2016 foram agrupadas em seis categorias, a saber:
A descrição completa da classificação do zoneamento pode ser acessada no catálogo de dados e está disponiblizada no quadro-resumo “tipologia_zoneamento.xlsx.”.