Reglas para la sostenibilidad de las cuentas de LinuxFr.org, datos personales y vigencia de un año

Reglas para la sostenibilidad de las cuentas de LinuxFr.org, datos personales y vigencia de un año
Reglas para la sostenibilidad de las cuentas de LinuxFr.org, datos personales y vigencia de un año
-

En febrero de 2023, anunciamos la implementación de un período de retención de datos personales (DCP) en LinuxFr.org, a partir del 28 de junio de 2023:

  • cierre de cuentas inactivas durante tres años y eliminación de sus datos almacenados que no sean necesarios para el servicio;
  • eliminación de datos asociados al servicio que no sean necesarios para cuentas cerradas durante más de un año.

La ayuda del sitio explica:

Desde el 31 de mayo de 2023, a cada cuenta se le asocia información sobre la fecha de la última actividad. Agreguemos que desde septiembre de 2023 el acceso a esta información también se reduce a las necesidades del servicio (puedes conocer la información de tu propia cuenta; los administradores solo necesitan saber si la última actividad tiene menos de un mes, ‘un año, tres años o más, por las normas antes mencionadas).

Así que aquí estamos, un año después, y esta parte de la regla se aplica por primera vez. Detallaremos los efectos en la segunda parte del despacho.

Resumen

Script de minimización de datos y semana normal.

La eliminación de datos innecesarios para el servicio depende actualmente de un script de minimización externo, iniciado manualmente. Una de las razones del aspecto manual es, en particular, el hecho de que aún no habíamos superado el primer año, lo que marca un umbral, como veremos más adelante.

La ejecución anterior del guión tuvo lugar el 19 de mayo de 2024 a las 11 horas (París), veamos cómo luce en 12 días y unas horas:

Started at vendredi 31 mai 2024, 22:19:15 (UTC+0200) Dry run mode 13 inactive accounts never used to purge 0 users to minimize 0 accounts to minimize because inactive and not seen since 1 year 0 active accounts not seen since 3 years to inactivate and minimize 12 users without comments/contents to purge 12 accounts to purge 6 logs to purge 12 friendly_id_slugs to purge 0 taggings to purge 0 oauth_access_grants for an oauth_application to purge 0 oauth_access_tokens for an oauth_application to purge 0 oauth_applications to purge 0 oauth_access_grants to purge 0 oauth_access_tokens to purge 0 deleted comments to minimize 0 comments from non-public contents to purge 0 taggings from non-public contents to purge 0 wiki_versions from non-public wiki_pages to purge 0 slugs from non-public wiki_pages to purge 0 non-public wiki_pages to purge 0 slugs from non-public trackers to purge 0 non-public trackers to purge 0 slugs from non-public posts to purge 0 non-public posts to purge 0 poll_answers to from non-public polls to purge 0 slugs from non-public polls to purge 0 non-public polls to purge 0 slugs from non-public bookmarks to purge 0 non-public bookmarks to purge 0 slugs from non-public diaries to purge 0 diaries converted into non-public news to purge 0 non-public diaries to purge 1 news_versions from non-public news to purge 10 paragraphs from non-public news to purge 0 links from non-public news to purge 1 slugs from non-public news to purge 1 non-public news to purge 1 non-public contents to purge 

En la operación anterior a “1 año”, solo tenemos unas pocas cuentas creadas pero que nunca usamos para limpiar (así como todo lo asociado con ellas, por lo tanto, las cuentas “cuentas”, los “usuarios” individuales, los registros asociados “registros” s Hay algunos atajos para direcciones de sitios (slugs) y contenido asociado no público, por lo tanto no visible, comentarios y etiquetas que ya no son necesarios. Entonces estamos hablando de un puñado de cuentas y otras por semana.

Efecto “1 año”

Unas horas más tarde, el resultado ya no es el mismo:

Started at Sat Jun 1 10:55:34 CEST 2024 Dry run mode 15 inactive accounts never used to purge 250 users to minimize 2616 accounts to minimize because inactive and not seen since 1 year 0 active accounts not seen since 3 years to inactivate and minimize 1412 users without comments/contents to purge 1412 accounts to purge 2285 logs to purge 1412 friendly_id_slugs to purge 6 taggings to purge 0 oauth_access_grants for an oauth_application to purge 0 oauth_access_tokens for an oauth_application to purge 0 oauth_applications to purge 15 oauth_access_grants to purge 47 oauth_access_tokens to purge 147 deleted comments to minimize 98 comments from non-public contents to purge 288 taggings from non-public contents to purge 0 wiki_versions from non-public wiki_pages to purge 0 slugs from non-public wiki_pages to purge 0 non-public wiki_pages to purge 0 slugs from non-public trackers to purge 0 non-public trackers to purge 166 slugs from non-public posts to purge 165 non-public posts to purge 10 poll_answers to from non-public polls to purge 2 slugs from non-public polls to purge 2 non-public polls to purge 46 slugs from non-public bookmarks to purge 46 non-public bookmarks to purge 27 slugs from non-public diaries to purge 0 diaries converted into non-public news to purge 27 non-public diaries to purge 139 news_versions from non-public news to purge 1278 paragraphs from non-public news to purge 33 links from non-public news to purge 66 slugs from non-public news to purge 61 non-public news to purge 301 non-public contents to purge 

Seguramente hemos ganado 2 cuentas más nunca utilizadas para limpiar, pero sobre todo minimizaremos varios miles de cuentas y eliminaremos o minimizaremos cientos de contenidos, comentarios y etiquetas. Este es el momento donde la mano no debe temblar y donde debemos tener confianza en el script de limpieza y en las copias de seguridad de nuestra base de datos, porque tendremos que ejecutarlo de verdad, y no sólo en modo “dry run” o repetición, prueba vacía. .

En la práctica, se han encontrado algunos problemas menores en las grandes transacciones realizadas en la base de datos: un problema de orden de eliminación y la imposibilidad de poner una cadena vacía para la dirección de correo electrónico, porque hay un índice que pide unicidad (una dirección .invalid Por lo tanto, se utilizarán los específicos de cada cuenta).

Después de la ejecución, si reiniciamos el script, terminamos con el número de cuentas aún abiertas pero sin actividad durante un año:

Started at Sat Jun 1 13:30:16 CEST 2024 Dry run mode 0    inactive accounts never used to purge 0    users to minimize 905  accounts to minimize because inactive and not seen since 1 year (…) 

Cual es la diferencia ?

Veamos las estadísticas de la cuenta antes y después de la limpieza de “1 año” (los cambios se han hecho visibles con un punto rojo):

Interpretación: son los estados de cuenta en orden de identificador de base de datos (temporalmente en el orden de creación), agrupados en paquetes de 10.000 consecutivos. Casi ninguna modificación en cuentas muy antiguas (hay muchas menos), y los cambios se concentran en cuentas de los últimos años. Tenemos menos cuentas cerradas después (pudimos eliminar algunas) y, por lo tanto, más cuentas eliminadas (es decir, identificadores que ya no se utilizan en la base de datos). Y el resto de cambios corresponden a visitas nominales al sitio.

Podemos comparar las estadísticas justo antes:

53.667 usuarios que tienen o han tenido cuentas (y siguen presentes en la base de datos)
33216 cuentas
2205 cuentas utilizadas en el sitio durante los últimos tres meses con 20,2 días de media sin visitas y 25,3 días de desviación estándar
10 cuentas pendientes
2809 cuentas cerradas

Y los actuales (al momento de escribir este artículo):

51.943 usuarios que tienen o han tenido cuentas (y siguen presentes en la base de datos)
31492 cuentas
2208 cuentas utilizadas en el sitio durante los últimos tres meses con 20,0 días promedio sin visitas y 25,3 días de desviación estándar
1 cuenta pendiente
1089 cuentas cerradas

También reoptimizamos las tablas de la base de datos (bueno, le dijimos a la base de datos que optimizara lo que pudiera con un OPTIMIZAR TABLA Qué). Debería tener entre ningún efecto y un efecto imperceptible sobre el rendimiento, a priori.

Y en el lado de respaldo, pasamos de vertedero gzip comprimido de 2.088.253.834 bytes antes a 2.086.608.391 bytes después, una enorme ganancia del 0,08%, en resumen, nada.

Y después ?

Una vez que haya pasado “1 año”, cada semana tendremos las pocas cuentas creadas pero que nunca usamos para limpiar, así como los pocos contenidos no públicos innecesarios, comentarios y etiquetas asociadas. Pero también las cuentas que habrán alcanzado el año de inactividad esta semana (probablemente una o dos docenas). Y esto hasta “3 años”.

A partir de “3 años”, empezaremos a cerrar cuentas y cada semana habrá aún más datos afectados.

Y entonces habremos llegado al ritmo nominal de cierre de cuentas y minimización de datos asociados.

Nos vemos por los “3 años” en junio de 2026.

Ir más lejos

-

NEXT OpenAI lanza GPT crítico para reparar GPT-4