É-Veille Tech #31 | 26/02/23 | Apprentissage Continu
Pour suivre la veille technologique chaque jour au fil de l’eau, rendez vous sur 👉 https://links.aschen.tech
PROGRAMMATION
Apache Arrow, A cross-language development platform for in-memory analytics
Apache Arrow est un projet qui développe des SDK dans la plupart des langages afin de manipuler efficacement des données tabulaires (vecteurs, matrices) en RAM.
Ils ont notamment des optimisations des calculs spécialement conçues pour les CPU et les GPU.
Par exemple, les données sont regroupées pour éviter les « jump » CPU et tenter de les faire tenir dans les différents caches.
Pour les GPU, Arrow utilise CUDA afin de paralléliser les calculs.
C’est utilisé dans la nouvelle version 2.0 de Pandas, la lib de référence en Python pour manipuler les données.
Les performances peuvent être jusqu’à 25x supérieurs (!)
(Merci Ocav pour le partage)
Web Streams Everywhere (and Fetch for Node.js)
Très bon article qui récapitule l’utilisation des streams avec l’API fetch
incluse dans Node.js 18.
Seastar – High performance server framework
Un framework C++ pour construire des application server performantes.
Au menu:
- sharding
- network stack
- futur et promises (JS like <3)
- message passing pour le multithread (afin d’éviter les couteux lock)
ScyllaDB est écrit avec
Improve chunking performance by lukastaegert · rollup/rollup
Une belle performance algorithmique sur l’algorithme de chunking de Rollup avec 3.3s au lieu de 2 heures pour la génération du plus petit nombre de chunks.
L’auteur utilise un seul BigInt
et manipule directement les bits au lieu de manipuler un Set.
🚀⚙️ JavaScript Visualized: the JavaScript Engine
Un article qui vulgarise très bien le pipeline d’exécution du code source Javascript par V8.
C’est sensiblement la même chose pour les autres moteurs présents dans Firefox (SpiderMonkey) et Safari (JavaScriptCore).
(Merci Alex pour le partage)
ARCHITECTURE
How Discord Stores Trillions of Messages
Un retour d’expérience sur l’utilisation de Cassandra à un très haut niveau chez Discord.
Des problèmes de maintenance majoritairement liés à la manière dont ils utilisaient Cassandra car des ralentissements en lecture sur un noeud impactaient tout le cluster car la lecture/écriture se fait en quorum.
La « compaction » (réindexation) des tables par Cassandra et le GC de la JVM causaient aussi des problèmes de latence.
Ils ont décidé de migrer toutes leurs DB vers ScyllaDB qui est compatible Cassandra mais en C++ donc plus rapide et pas de GC!
Il n’ont pas réglé leur problème qu’avec une nouvelle base de données mais aussi avec des middleware de cache écrit en Rust pour la performance C++ et la sureté mémoire.
La migration fut aussi très compliqué et les premières prévisions étaient extrèmement longues (3 mois) mais la encore un rewrite du connecteur en Rust sauve la mise (9 jours!)
Conclusions:
- plus de stabilité
- 177 noeuds Cassandra à 72 ScyllaDB
- latence p99 40-125ms avec Cassandra et 15ms avec ScyllaDB
ORGANISATION
Want an unfair advantage in your tech career? Consume content meant for other roles
Très bon conseil pour booster une carrière.
Il est important de rester curieux et de s’intéresser aux autres métiers de la tech (product, management, marketing, sales), c’est ce qui permet d’avoir une meilleure compréhension de l’ensemble d’une entreprise et d’améliorer la qualité de ses contributions.
Les personnes ayant été à des rôles de manager et d’individual contributor sont très souvent plus ouvertes car elles connaissent les deux côtés de la barrière.
Your version control system contains valuable insights
Un très bon article de l’équipe tech de Malt sur l’observabilité code/équipe en utilisant Git.
Cela permet d’identifier:
- les dépendances entre services
- les « hot spots » fréquemment édités
- les personnes ayant la meilleur connaissance de portions du code
AI
The Age of AI has begun
Le point de vu de Bill Gates sur les récentes avancées en IA.
Selon lui les IA vont notamment permettre de grandes avancées dans la productivité, la santé et l’éducation.
Implementing an event-driven serverless story generation application with ChatGPT and DALL-E
Une application de bout en bout qui créé des histoires pour les enfants en utilisant des services AWS et OpenAI.
Ça génère l’histoire, l’audio, une image de couverture et sauvegarde le tout.
Write a title and a rhyming story on 2 main characters called Parker and Jackson. The story needs to be set within the scene haunted woods and be at least 200 words long
The Implications of Today’s HUGE AI Announcements
Google met des IA génératives dans sa suite Google Workspace donc dans Docs, Sheet, Slides etc
Des centaines de millions d’utilisateurs à travers le monde vont avoir accès à une IA générative pour écrire leur contenu.
GPT-4
GPT-4 commence à être rendu disponible sur liste d’attente.
Ils ont fait passé des examens non corrigés sur une vingtaine de sujets et GPT-4 a obtenu la moyenne dans 12 sujets sur 26!
Une autre nouveauté, GPT-4 peut aussi accepter les images en complément du texte.
ControlNet – let us control image diffusion models!
ControlNet est une autre IA de génération d’images comme StableDiffusion ou Midjourney.
Elle est en accès libre et à priori les résultats sont encore meilleurs que StableDiffusion.
Stanford Alpaca, and the acceleration of on-device large language model development
Des modèles concurrents de GPT-3 commencent à émerger.
Celui-ci est même capable de tourner sur un téléphone (26sec/token) ou un raspberry pi! (ça sera très lent)
Il est intéressant de voir qu’ils ont pu fine-tune le modèle pour un coup assez bas, 600$ (de cloud j’imagine)
À noter, ce modèle n’est pas utilisable sous licence commerciale.
ACT-1: Transformer for Actions
Une IA qui est capable de manipuler le navigateur depuis des instructions en langage naturel.
Par exemple, elle est capable de rechercher une location sur un site comme Airbnb simplement depuis une demande comme « trouver une maison pour 6 personnes à Houston pour maximum 600$ »
OpenAI Is Now Everything It Promised Not to Be: Corporate, Closed-Source, and For-Profit
Tout est dans le titre, OpenAI a beaucoup changé depuis 2015.
Les modèles ne sont plus ouverts, les investisseurs privés affluent, la rapidité prime sur la qualité, bref une entreprise tout ce qu’il y a de plus capitaliste et pas du tout dans le goût de la fondation créée au départ.
Google et son robot pipoteur(*), selon Doctorow
Excellent article de Cory Doctorow traduit par Framablog sur la situation actuelle de Microsoft et surtout Google par rapports aux IA génératrices de texte.
Outre la critique des ces IA qui ne seraient pas prêtes à remplacer les moteurs de recherche et les humains, Google est aussi descendu de son piédestal et ramené à une société financière incapable d’innover et qui rachète d’autres entreprise pour ça.
Introducing ChatGPT and Whisper APIs
Les nouvelles API de OpenAI sont disponibles.
Notamment celle de ChatGPT (gpt-3.5) avec un coût par token 10x inférieur!
Whisper est une quand à elle une API de text to speech
Outils gratuits d’intelligence artificielle pour détecter le contenu généré via ChatGPT
Des outils pour détecter si un texte a été généré par une IA du style de GPT-X
SECURITE
Prompt Injections are bad, mkay?
Injection de contexte dans le prompt de Bing Chat pour demander à l’utilisateur des informations personnelles.
Ces info sont ensuite retransmises à un serveur distant.
PRIVACY
Arrêtez de révéler tous vos secrets à ChatGPT, vous mettez votre entreprise en danger
Attention car OpenAI conserve toutes vos données et pourrait les ressortir dans d’autres conversations!
Losing Signal
Excellent article de Ploum sur les problèmes inévitables de la centralisation.
La Commission européenne veut surveiller l’intégralité du web, des mails et des messageries chiffrées
Ouvrir tous les emails et messages (WhatsApp, Messenger, etc) qui circulent sur internet pour contrer la pedopornographie.
Le refrain habituel qui en plus d’être très difficile techniquement et de violer le secret des correspondances, nous promet de très nombreux faux positifs.
On se rappelle du père de famille accusé à tord après avoir envoyé une photo de son fils à son médecin https://www.nextinpact.com/article/69833/accuses-a-tort-pedophilie-pour-photos-faites-a-demande-medecins
AUTRES
Les meilleures communautés Slack par métier en startup
Une liste de Slack communautaires sur pleins de sujets!
Gandi fusionne avec Total Webhosting Solutions (TWS) qui devient Your.Online, et cela inquiète
Gandhi se fait racheter par un groupe et ses services font fusionner avec ceux d’une autre entreprise.
C’est assez inquiétant car les entreprises rachetées par ce groupe ont subie des hausses de prix et dégradations de service.
TROLL
programming war crimes 2 – YouTube
Des codes qui feront hurler n’importe quel développeur, mais que fait la cour de justice internationale!
(Merci Yannick)
DEVOPS
Docker is deleting Open Source organisations – what you need to know
Whoa Docker lâche un pavé dans la marre, c’est la fin des organisations open source qui publient leurs images sur Docker Hub. (ou alors il faut payer 420$/an)
Github est une solution de remplacement.. Jusqu’au jour où ils feront aussi payer !