É-Veille Tech #31 | 26/02/23 | Apprentissage Continu

É-Veille Tech #31 | 26/02/23 | Apprentissage Continu

25 mars 2023 0 Par Aschen

Pour suivre la veille technologique chaque jour au fil de l’eau, rendez vous sur 👉 https://links.aschen.tech

PROGRAMMATION

Apache Arrow, A cross-language development platform for in-memory analytics

Apache Arrow est un projet qui développe des SDK dans la plupart des langages afin de manipuler efficacement des données tabulaires (vecteurs, matrices) en RAM.

Ils ont notamment des optimisations des calculs spécialement conçues pour les CPU et les GPU.

Par exemple, les données sont regroupées pour éviter les « jump » CPU et tenter de les faire tenir dans les différents caches.

Pour les GPU, Arrow utilise CUDA afin de paralléliser les calculs.

C’est utilisé dans la nouvelle version 2.0 de Pandas, la lib de référence en Python pour manipuler les données.

Les performances peuvent être jusqu’à 25x supérieurs (!)

(Merci Ocav pour le partage)

Web Streams Everywhere (and Fetch for Node.js)

Très bon article qui récapitule l’utilisation des streams avec l’API fetch incluse dans Node.js 18.

Seastar – High performance server framework

Un framework C++ pour construire des application server performantes.

Au menu:

  • sharding
  • network stack
  • futur et promises (JS like <3)
  • message passing pour le multithread (afin d’éviter les couteux lock)

ScyllaDB est écrit avec

Improve chunking performance by lukastaegert · rollup/rollup

Une belle performance algorithmique sur l’algorithme de chunking de Rollup avec 3.3s au lieu de 2 heures pour la génération du plus petit nombre de chunks.

L’auteur utilise un seul BigInt et manipule directement les bits au lieu de manipuler un Set.

🚀⚙️ JavaScript Visualized: the JavaScript Engine

Un article qui vulgarise très bien le pipeline d’exécution du code source Javascript par V8.

C’est sensiblement la même chose pour les autres moteurs présents dans Firefox (SpiderMonkey) et Safari (JavaScriptCore).

(Merci Alex pour le partage)

ARCHITECTURE

How Discord Stores Trillions of Messages

Un retour d’expérience sur l’utilisation de Cassandra à un très haut niveau chez Discord.

Des problèmes de maintenance majoritairement liés à la manière dont ils utilisaient Cassandra car des ralentissements en lecture sur un noeud impactaient tout le cluster car la lecture/écriture se fait en quorum.

La « compaction » (réindexation) des tables par Cassandra et le GC de la JVM causaient aussi des problèmes de latence.

Ils ont décidé de migrer toutes leurs DB vers ScyllaDB qui est compatible Cassandra mais en C++ donc plus rapide et pas de GC!

Il n’ont pas réglé leur problème qu’avec une nouvelle base de données mais aussi avec des middleware de cache écrit en Rust pour la performance C++ et la sureté mémoire.

La migration fut aussi très compliqué et les premières prévisions étaient extrèmement longues (3 mois) mais la encore un rewrite du connecteur en Rust sauve la mise (9 jours!)

Conclusions:

  • plus de stabilité
  • 177 noeuds Cassandra à 72 ScyllaDB
  • latence p99 40-125ms avec Cassandra et 15ms avec ScyllaDB

ORGANISATION

Want an unfair advantage in your tech career? Consume content meant for other roles

Très bon conseil pour booster une carrière.

Il est important de rester curieux et de s’intéresser aux autres métiers de la tech (product, management, marketing, sales), c’est ce qui permet d’avoir une meilleure compréhension de l’ensemble d’une entreprise et d’améliorer la qualité de ses contributions.

Les personnes ayant été à des rôles de manager et d’individual contributor sont très souvent plus ouvertes car elles connaissent les deux côtés de la barrière.

Your version control system contains valuable insights

Un très bon article de l’équipe tech de Malt sur l’observabilité code/équipe en utilisant Git.

Cela permet d’identifier:

  • les dépendances entre services
  • les « hot spots » fréquemment édités
  • les personnes ayant la meilleur connaissance de portions du code

AI

The Age of AI has begun

Le point de vu de Bill Gates sur les récentes avancées en IA.

Selon lui les IA vont notamment permettre de grandes avancées dans la productivité, la santé et l’éducation.

Implementing an event-driven serverless story generation application with ChatGPT and DALL-E

Une application de bout en bout qui créé des histoires pour les enfants en utilisant des services AWS et OpenAI.

Ça génère l’histoire, l’audio, une image de couverture et sauvegarde le tout.

Write a title and a rhyming story on 2 main characters called Parker and Jackson. The story needs to be set within the scene haunted woods and be at least 200 words long

The Implications of Today’s HUGE AI Announcements

Google met des IA génératives dans sa suite Google Workspace donc dans Docs, Sheet, Slides etc

Des centaines de millions d’utilisateurs à travers le monde vont avoir accès à une IA générative pour écrire leur contenu.

GPT-4

GPT-4 commence à être rendu disponible sur liste d’attente.

Ils ont fait passé des examens non corrigés sur une vingtaine de sujets et GPT-4 a obtenu la moyenne dans 12 sujets sur 26!

Une autre nouveauté, GPT-4 peut aussi accepter les images en complément du texte.

ControlNet – let us control image diffusion models!

ControlNet est une autre IA de génération d’images comme StableDiffusion ou Midjourney.

Elle est en accès libre et à priori les résultats sont encore meilleurs que StableDiffusion.

Stanford Alpaca, and the acceleration of on-device large language model development

Des modèles concurrents de GPT-3 commencent à émerger.

Celui-ci est même capable de tourner sur un téléphone (26sec/token) ou un raspberry pi! (ça sera très lent)

Il est intéressant de voir qu’ils ont pu fine-tune le modèle pour un coup assez bas, 600$ (de cloud j’imagine)

À noter, ce modèle n’est pas utilisable sous licence commerciale.

ACT-1: Transformer for Actions

Une IA qui est capable de manipuler le navigateur depuis des instructions en langage naturel.

Par exemple, elle est capable de rechercher une location sur un site comme Airbnb simplement depuis une demande comme « trouver une maison pour 6 personnes à Houston pour maximum 600$ »

OpenAI Is Now Everything It Promised Not to Be: Corporate, Closed-Source, and For-Profit

Tout est dans le titre, OpenAI a beaucoup changé depuis 2015.

Les modèles ne sont plus ouverts, les investisseurs privés affluent, la rapidité prime sur la qualité, bref une entreprise tout ce qu’il y a de plus capitaliste et pas du tout dans le goût de la fondation créée au départ.

Google et son robot pipoteur(*), selon Doctorow

Excellent article de Cory Doctorow traduit par Framablog sur la situation actuelle de Microsoft et surtout Google par rapports aux IA génératrices de texte.

Outre la critique des ces IA qui ne seraient pas prêtes à remplacer les moteurs de recherche et les humains, Google est aussi descendu de son piédestal et ramené à une société financière incapable d’innover et qui rachète d’autres entreprise pour ça.

Introducing ChatGPT and Whisper APIs

Les nouvelles API de OpenAI sont disponibles.

Notamment celle de ChatGPT (gpt-3.5) avec un coût par token 10x inférieur!

Whisper est une quand à elle une API de text to speech

Outils gratuits d’intelligence artificielle pour détecter le contenu généré via ChatGPT

Des outils pour détecter si un texte a été généré par une IA du style de GPT-X

SECURITE

Prompt Injections are bad, mkay?

Injection de contexte dans le prompt de Bing Chat pour demander à l’utilisateur des informations personnelles.

Ces info sont ensuite retransmises à un serveur distant.

PRIVACY

Arrêtez de révéler tous vos secrets à ChatGPT, vous mettez votre entreprise en danger

Attention car OpenAI conserve toutes vos données et pourrait les ressortir dans d’autres conversations!

Losing Signal

Excellent article de Ploum sur les problèmes inévitables de la centralisation.

La Commission européenne veut surveiller l’intégralité du web, des mails et des messageries chiffrées

Ouvrir tous les emails et messages (WhatsApp, Messenger, etc) qui circulent sur internet pour contrer la pedopornographie.

Le refrain habituel qui en plus d’être très difficile techniquement et de violer le secret des correspondances, nous promet de très nombreux faux positifs.

On se rappelle du père de famille accusé à tord après avoir envoyé une photo de son fils à son médecin https://www.nextinpact.com/article/69833/accuses-a-tort-pedophilie-pour-photos-faites-a-demande-medecins

AUTRES

Les meilleures communautés Slack par métier en startup

Une liste de Slack communautaires sur pleins de sujets!

Gandi fusionne avec Total Webhosting Solutions (TWS) qui devient Your.Online, et cela inquiète

Gandhi se fait racheter par un groupe et ses services font fusionner avec ceux d’une autre entreprise.

C’est assez inquiétant car les entreprises rachetées par ce groupe ont subie des hausses de prix et dégradations de service.

TROLL

programming war crimes 2 – YouTube

Des codes qui feront hurler n’importe quel développeur, mais que fait la cour de justice internationale!

(Merci Yannick)

DEVOPS

Docker is deleting Open Source organisations – what you need to know

Whoa Docker lâche un pavé dans la marre, c’est la fin des organisations open source qui publient leurs images sur Docker Hub. (ou alors il faut payer 420$/an)

Github est une solution de remplacement.. Jusqu’au jour où ils feront aussi payer !