AI News – říjen 2024

Martin Sumera

2. 10. 2024

Věříme, že současný trend AI není jen hype nebo buzzword, ale že představuje zásadní změnu v tom, jak každodenně fungujeme.

Po letní přestávce znovu spouštíme náš newsletter a rozhodně je o čem psát. Ve světě AI je totiž pár týdnů doslova celá věčnost.

Mohli bychom psát například o tom, že Meta vydala nové modely Llama 3.1, ale před pár dny se jim podařilo vypustit do světa další verzi Llama 3.2. OpenAI také představil GPT-4o-mini a před několika týdny modely o1-mini a o1-preview. Stable Diffusion se po dlouhé době odhodlalo vypustit do světa Stable Diffusion XL 1.0, ale mezitím Black Labs vydali do světa model Flux, se kterým je možné dosáhnout fotorealistických výsledků.

Rychlost, jakou se technologie vyvíjejí, je zřejmá, a my se tedy pokusíme shrnout ty nejdůležitější věci za poslední období a zhodnotit, co si myslíme, že mohou znamenat do budoucna.

TL;DR

Nové jazykové modely: GPT-4o Mini, OpenAI o1-preview, OpenAI o1-mini, Grok 2, Llama 3.2, Phi-3.5,…
Vzestup AI agentů a asistentů pokračuje: Apple, Salesforce a další vyvíjejí agenty i autonomní AI systémy pro komplexní úkoly.
Image generation opět pokročila a dosáhnout fotorealistických výsledků je jednodušší než kdykoli předtím.
Pokrok nastává i v jiných oblastech AI a Segment Anything 2 od Meta představuje velmi silný nástroj na segmentaci i v rámci videa.

Novinky

Nové jazykové modely. Asi nejočekávanější release způsobilo vypuštění nových modelů OpenAI z rodiny o1. Konkrétně o1-mini a o1-preview. Tyto modely přicházejí se staronovým konceptem toho, že nad odpovědí nejprve přemýšlejí, analyzují ji a krok za krokem přicházejí k výsledku. Tohoto se předtím v jazykových modelech dalo dosáhnout takzvaným chain-of-thought promptingem, kdy jste popsali, jakým způsobem by měl model nad problémem přemýšlet. o1 má takové chování implementované už v sobě a nad problémem přemýšlí automaticky – takovou analýzu má i v samostatných testovacích datech, a dokáže tedy řešit i složitější problémy.

Ačkoliv mají closed source modely stále navrch, dočkali jsme se i velkých pokroků v oblasti open source komunity. LLama 3.1 přišla kromě menších velmi kvalitních modelů i s největším open source modelem s 405 miliardami parametrů (jen pro porovnání: ostatní modely v této rodině mají 8 a 70 miliard parametrů), který překonal i starší verze GPT-4. Takže přibližně rok a půl od oficiálního ohlášení GPT-4 dosáhla open source komunita modelu podobné kvality.

Microsoft vydal menší, ale výkonné, modely Phi-3.5. U takových modelů sledujeme i trend toho, že malé specializované modely dosahují v specifických kategoriích schopnosti větších generických modelů, hlavně při fine-tuning na specifické úlohy.

Vzestup agentů a inteligentních asistentů pokračuje. Pomalu, ale jistě se generative AI technologie dostávají do života běžného člověka a vytváří se pro ně prostředí, kde je jejich využití stále jednodušší. Společnosti jako například Salesforce nebo Microsoft představují nástroje na tvorbu agentů, kteří by měli pomáhat s běžnými lehce automatizovanými úlohami širokému spektru zaměstnanců. Apple Intelligence zase na druhou stranu má ukázat, jak může vypadat integrace asistentů přímo v systému pro široké publikum. Ve světě programování zažívají boom asistenti řešící komplexnější úlohy.

Ve světě image generation se netrpělivě čekalo na release Stable Diffusion XL 1.0, dlouho očekávaný model, který sliboval vysokou realističnost a možnost pracovat s textem. Když se tento open source model konečně dočkal veřejného releasu, o pár týdnů později mu vzaly všechnu slávu modely z rodiny Flux. Flux představil více variant modelu, open-source komunita se pustila do práce a výsledky jsou fantastické. V současnosti není velký problém vygenerovat fotorealistickou fotografii, vytrénovat model na vlastních fotografiích a vytvořit si tak své vlastní dvojče nebo přizpůsobit Flux různým stylům.

Řekli byste, že jsou tyhle obrázky vygenerované AI?

Pokroky v AI nejsou jen o LLM a image generation nástrojích, velký pokrok se děje i v jiných oblastech, které spadají například pod computer vision. Meta před pár měsíci představila nový model Segment Anything 2, který dokáže bez složitějšího trénování detekovat objekty na obrázku s úžasnou přesností. Ve videu stačí označit, jaký objekt má model sledovat – a dokáže to s obrovskou precizností. A to například i přesto, že objekt může na určitou dobu zmizet z obrazu.

Co mohou novinky znamenat?

Když se díváme na poslední měsíce, vidíme, že pokrok v různých směrech vývoje AI se stále nezastavuje. Open-source modely svými schopnostmi dohánějí closed source modely. Pokrok nastává ve velmi širokém spektru technologií, od jazykových modelů přes computer vision až po Generative AI v oblasti obrázků, videa a audia.

Když se podíváme na poslední rok, rok a půl, vidíme gigantické skoky. GPT-4 spatřilo světlo světa jako obrovský technologický pokrok, velký skok směrem k něčemu, co předtím vypadalo nepravděpodobně. Dnes některé open source modely v určitých směrech překonávají GPT-4 v kvalitě, rychlosti, ale i v ceně. GPT-4 před rokem a půl stálo 60 dolarů za milion tokenů (to je obsah několika knih), dnes open source model podobné kvality dokáže zpracovat podobný obsah za jeden dolar.

Je otázkou, v které fázi hype cyklu kolem AI boomu se právě nacházíme, ale technologie si pomalu nacházejí cestu, jak se dostat ke koncovému zákazníkovi. Aplikace integrují asistenty, kteří dokážou pomáhat s nejrůznějšími úkoly, firmy aktivně hledají způsoby, jak integrovat AI do jejich pracovních procesů a zlepšovat efektivitu interních procesů.

Pokud začnete dnes vytvářet aplikaci postavenou na Generative AI modelech a trápí vás nějaké omezení, je možné, že v době, kdy aplikaci dokončíte, bude toto omezení již vyřešené. Náklady na provoz stále klesají, rychlost a schopnosti modelů stále narůstají.

Zajímavosti

Replit Agent. Společnost Replit přišla s asistentem na vývoj aplikací. V průběhu několika minut vám z vašeho promptu vytvoří fungující aplikaci.
Advanced Voice Mode od OpenAI se po několika měsících čekání konečně dostává na veřejnost.
Nástroje pro vývojáře se stále vyvíjejí. Od komerčních nástrojů jako je cursor.sh, přes volně dostupné jako je claude dev, continue nebo void.
Pokud byste si chtěli porovnat různé LLM a jejich hodnocení, které probíhá anonymně za pomoci hlasování široké veřejnosti, doporučujeme lmarena, kde je porovnání těch nejdůležitějších modelů v různých oblastech.
Vytrénovat image generation model a naučit ho něco nového může být dnes už hračka. Například společnost Replicate nabízí takovou možnost, kde nahrajete několik fotek (stačí i kolem 5), počkáte asi 20 minut a za cenu 2 dolarů jste vytrénovali nový model, který se může naučit rozpoznávat například logo vaší firmy.

AI News připravuje Martin Sumera. ⁠ ⁠ ⁠

⁠Futured & AI. AI se do technologických řešení propisuje stále více, proto máme ve Futured dedikovaný AI tým, který se specializuje na integraci AI do nejrůznějších firemních procesů. Zpravidla se jedná o činnosti, které zabírají hodně času nebo vyžadují zapojení hodně lidí. ⁠ ⁠

Baví vás, jak o technologiích přemýšlíme? ⁠Zajímá vás, jak můžete AI využít pro svůj byznys? Napište Lukášovi Strnadlovi, který Futured založil: [email protected] & +420 605 312 459.

Chcete se k nám přidat? Aktuálně hledáme hned několik kolegů. Ozvěte se Míše Kormošové a pobavte se o možnostech spolupráce: [email protected] & +420 739 106 507.