Zaměříme se na open-source model R1 a vysvětlíme si, proč je tak důležitý. Podíváme se také na skutečně LARGE language model GPT-4.5, představíme si novinky od Anthropic, jako jsou Claude 3.7 a Claude Code, a podíváme se i na agentní technologie, například Operator od OpenAI nebo Deep Research funkce od různých společností, které představují poměrně úspěšné příklady agentních schopností moderních modelů. Pojďme na to!
TL;DR
- R1 od DeepSeek je open-weight model, který dosahuje výkonu nejlepších AI modelů za zlomek ceny. Revoluci nezpůsobil jen tím, že je volně dostupný, ale i metodou, jakou byl vyvinut.
- GPT-4.5 od OpenAI je jejich dosud největší model. Jeho velikost se odhaduje někde v rozmezí 5–20 T (ano, to T znamená trilion) parametrů, ale jeho praktičnost je sporná, a to kvůli vysoké ceně i rozporuplným výsledkům.
- Sonnet 3.7 od Anthropic je dlouho očekávaný nástupce starší verze 3.5, který přináší skvělé agentní schopnosti, jež vývojářská komunita ihned začala aktivně využívat.
- Deep Research funkce od Google, OpenAI, xAI a Perplexity a nástroje jako Operator od OpenAI nebo Browser Use úspěšně demonstrují agenty, kteří jsou do určité míry schopni pracovat autonomně a přinášet velmi zajímavé výsledky.
Než půjdeme na plnotučnou verzi AI News, máme tu připomínku: V červnu chystáme pro všechny mobile devs konferenci/festival mDevCamp 2025, jehož téma je Breaking Platform Barriers: Redefine the Mobile Scene. Early bird lístky už jsou sice pryč, ale doporučujeme nenechávat nákup vstupenek na poslední chvíli – jednak budou lístky dražší, druhak riskujete, že nestihnete chytit místo na některém z 🔥 workshopů.
A teď už pojďme na slíbené AI News. Jejich čtení vám tentokrát zabere 8-12 minut – alespoň tak to odhadl Claude 3.7 Sonnet. Proč tak nepřesně? Zohledňuje totiž, že fajnšmekři mohou text prolítnout rychle, zatímco někdo se potřebuje víc soustředit, aby technické koncepty „vstřebal“.
R1 – proč je to velká věc?
Model R1, který vyvinula společnost DeepSeek, spatřil světlo světa v lednu 2025. Výjimečným ho učinilo hned několik věcí:
- Je volně dostupný, takzvaný open-weight model (model je volně dostupný, ale jeho trénovací data ani kód nejsou veřejně přístupné). Ačkoli se na internetu objevilo mnoho zpráv o tom, že je tento model cenzurovaný (například otázky ohledně Taiwanu byly na stránkách DeepSeeku ignorovány), tyto restrikce se týkají pouze jejich webu. Samotný model však na tyto otázky odpovědět dokáže.
- Research paper, který byl vydán spolu s modelem, přináší nové přístupy k trénování takzvaných reasoning modelů. R1 využívá metodu Group Relative Policy Optimization (GRPO), což je forma reinforcement learningu. Tradiční modely jako GPT-4o nebo Gemini využívají reinforcement learning pouze jako finální krok k „doladění“ modelu. R1 byl však trénován pomocí GRPO výrazně intenzivněji, díky čemuž se sám naučil „přemýšlet“. Samotný research paper uvádí, že model objevil takzvaný AHA moment, kdy zjistil, že na problém lze nahlížet z různých úhlů, že některé myšlenky mohou být mylné a že nad odpověďmi lze reflektovat – tím si sám osvojil schopnost analyzovat problémy a logicky uvažovat. Síla GRPO taky spočívá i v tom, že nevyžaduje lidský dohled pro hodnocení a porovnávání výstupů. Místo toho se spoléhá na takzvané reward funkce, které dokáží výsledek automaticky vyhodnotit. Tento přístup lze aplikovat například na formální výstupy, jako je matematika nebo generování kódu. Zajímavý je také model R1-Zero, který byl trénován výhradně touto metodou a v určitých benchmarcích dosahuje dokonce lepších výsledků než o1-pro model.
- Dosahuje srovnatelného výkonu se state-of-the-art modely, jako jsou o3-mini nebo Grok 3, a to za zlomek nákladů. Informace, že DeepSeek model vytrénoval „pouze“ za 5 milionů USD, vyvolala značné kontroverze – mnozí odborníci tyto údaje zpochybňují. Nicméně tato zpráva pravděpodobně způsobila i menší pokles akcií NVIDIA (reakce trhu na obavy, že investice do AI mohou být bublinou). Každopádně se komunita konečně dostala do bodu, kdy se rozdíl mezi proprietárními modely a open-weight modely výrazně zmenšil.
V době, kdy se vedou debaty o tom, zda klasická metoda trénování LLM (tzv. pretraining) nenaráží na své limity, představuje otevřenost modelu DeepSeek R1 velký krok vpřed. Může naznačovat, že k těmto limitům ve skutečnosti ještě zdaleka nesměřujeme a že pokrok je stále možný.
GPT-4.5, prozatím největší model
Po dlouhých měsících čekání OpenAI před pár dny představilo GPT-4.5, svůj dosud největší model. Odhaduje se, že je až 10× větší než GPT-4, což z něj činí největší jazykový model, jaký kdy vznikl. Odhady naznačují, že by mohl mít přibližně 5–20 T parametrů (ano, to „T” znamená triliony). Pro srovnání, R1, největší open-source model, má 671 B parametrů.
Tento model byl dlouho očekávaný, ale zdá se, že nenaplnil očekávání. Podle benchmarků a různých zpětných vazeb dosahuje v některých aspektech state-of-the-art úrovně, v jiných však nikoliv a konkurenci nijak výrazně nepřekonává. S obrovskou cenovkou – například 10× vyšší než u Sonnet 3.7 a 70× vyšší než u R1 – je jeho využití velmi nepraktické. Tento model naznačuje, že tradiční architektura velkých jazykových modelů možná dosáhla svých limitů, což by mohlo znamenat, že budoucnost patří přístupům, jako je R1.
Claude 3.7 a Claude Code
Dalším důležitým releasem je Claude 3.7 Sonnet od společnosti Anthropic. Jedná se o hybridní model, který dokáže přepínat mezi rychlými odpověďmi a efektivním reasoningem, což z něj činí první model z kategorie reasoning modelů od společnosti Anthropic. Tento model vyniká v programování a vícekrokových agentních úlohách, což z něj dělá skvělého asistenta pro vývojáře.
Spolu s ním byl představen také Claude Code, nástroj v rámci příkazového řádku, který tyto schopnosti aktivně využívá a slouží jako agent pro podporu vývojářů. Dokáže zvládat nejrůznější složité úkoly, čímž výrazně usnadňuje práci v oblasti softwarového vývoje.
Další modely, které stojí za zmínku
o3-mini, Grok 3, Gemini-2.0-thinking…
Je trochu šílené, že každý z uvedených modelů by si zasloužil vlastní sekci nebo dokonce celý článek: o3-mini jako příklad toho, že model distillation (učení menšího modelu z výstupů většího modelu) funguje velmi dobře, Grok-3 coby jeden z nejvýkonnějších dostupných modelů, který vytvořil relativně nový tým, jenž rychle dohnal konkurenci, Gemini-2.0-thinking jako další velmi schopný a cenově dostupný model…
Za velmi krátkou dobu jsme zjistili, že nová paradigma reasoning modelů se ujala výborně a pokrok tímto směrem stále pokračuje.
Deep Research, search na steroidech
Funkce Deep Research mění způsob, jakým provádíme výzkum. Google Gemini tuto funkci nabízí od prosince 2024 pro předplatitele Gemini Advanced, zatímco OpenAI ji spustilo v únoru 2025 pro ChatGPT Pro a od konce února v omezené verzi i pro uživatele Plus. Stejně pojmenovanou funkcionalitu přináší také Perplexity. Grok 3 přichází zase s Deep Search. Spolu s komerčními řešeními se objevují také open-source alternativy, které fungují srovnatelně s těmi komerčními.
Tyto nástroje, které již obsahují prvky agentního chování, analyzují stovky zdrojů, vyhodnocují získané informace, pokračují v dalším vyhledávání a tímto způsobem postupně shromažďují potřebné zdroje a generují komplexní zprávy – něco, co by člověku zabralo dny, zvládnou za pár minut, a zdá se, že to funguje velmi dobře. V podstatě simulují to, co byste dělali ručně několik hodin, jen mnohem rychleji a s výstupem na velmi vysoké úrovni. Analýza určité společnosti? Vyhledání nejnovějších výzkumů na dané téma? Nalezení konkrétního produktu?
Tento přístup je skvělým příkladem integrace takzvaného agenta do praktického využití. Model se sám rozhoduje, co bude na základě nalezených informací hledat dál, a na základě toho činí rozhodnutí, která vedou k požadovanému výsledku.
Operator a Browser Use
Před pár měsíci Anthropic představil Computer Use, LLM přizpůsobené tak, aby dokázalo ovládat uživatelské UI a na základě obrazu se rozhodlo, jakou akci provede jako další. Zpřístupnili to jako API, které může kdokoliv využít dle libosti. OpenAI přišlo s nástrojem Operator, který tuto funkcionalitu zabalil do uživatelsky přívětivého rozhraní. V rámci ChatGPT stačí zadat požadavek, Operator si sám inicializuje web, zahájí vyhledávání a začne provádět kroky na základě vašeho zadání. Objednat nákup z XY e-shopu? Koupit lístky na koncert? Napsat příspěvek na X? Žádný problém. Pokud narazí na potřebu přihlášení, dočasně vám předá kontrolu. Momentálně je dostupný pouze pro ChatGPT Pro uživatele, ale podobnou funkcionalitu nabízí i open-source projekt Browser Use, který umožňuje totéž s pouhými několika řádky Python kódu.
Podobně jako u Deep Research se v tomto kontextu mluví o agentech. Na začátku je zadán úkol a systém se sám rozhoduje, jaké kroky provede, jak nejlépe dosáhne cíle, kam kliknout, kdy je úloha splněna atd.
Co to všechno znamená?
Z novinek posledních měsíců si musíme vzít dvě věci:
- Pokrok v AI pravděpodobně stále pokračuje, ale pro další rozvoj modelů budou zapotřebí nové metody. Samotné škálování dat a výpočetního výkonu možná dosahuje svých limitů. Na jedné straně máme GPT-4.5, který naznačuje, že další zvětšování modelů naráží na finanční a technické stropy. Na druhé straně R1 ukazuje, že existují alternativní přístupy k vývoji pokročilejších modelů, přičemž reasoning modely dosahují významného pokroku.
- Modely už dosahují takové úrovně, že dokáží fungovat jako Agenti – využívat nástroje, samostatně se rozhodovat a splnit i složitější úkoly. Rok 2025 měl být podle mnohých odhadů rokem agentů, podle některých to bude až rok 2026, ale už teď vidíme první kroky k tomu, že LLM se dostávají z hranic chatovacích oken do nového prostředí „virtuálního“ světa, se kterým dokážou interagovat. V průběhu roku pravděpodobně uvidíme další a další příklady nových kreativních využití agentů v praxi.
Modely stále postupují, cena klesá, nové přístupy se neustále objevují. Je důležité mít na paměti, že cena půjde dolů, ale inteligence už ne. To, co začnete vytvářet dnes – a co může být nyní drahé, pomalé nebo kvalitativně nedostatečné – může být za pár měsíců výrazně levnější, rychlejší a schopnější.
Zajímavosti
Pamatujete si na Devina, softwarového inženýra, který měl způsobit revoluci v tom, jak lze velké jazykové modely využít pro tvorbu software? Podle CEO společnosti Gumroad je v součastnosti Devin jejich nejproduktivnější člen týmu. Celkově se v současnosti na Devina názory různí – od velmi pozitivních ohlasů až po tvrzení, že z 20 úkolů, které Devin dostal, se do produkce dostaly pouze jeden nebo dva. Stále platí, že záleží na kontextu, ve kterém pracujete, a pravděpodobně i na tom, jak takovéto názory dokážete využít.
Andrej Karpathy, ex-ředitel divize umělé inteligence v Tesla a jeden ze zakladatelů OpenAI (zajímavost: je to rodilý Slovák, který však studoval v Kanadě), je známý také svými vzdělávacími materiály. Ty vynikají jeho talentem vysvětlit složité věci jednoduše a přirozeně. Nedávno vydal tříhodinové video, které vysvětluje fungování LLM od úplných základů až po složitější koncepty, jako jsou například reasoning modely. Video je sice velmi dlouhé, ale nabité zajímavými informacemi. Rozhodně stojí za zhlédnutí pro každého, koho AI zajímá, byť jen okrajově.
Pokud vás zaujal OpenAI Operator a bude vám stačit jeho open-source verze Browser Use, pak vám následujících pár řádků kódu postačí k tomu, abyste si jej vyzkoušeli lokálně, aniž byste museli platit OpenAI 200 dolarů měsíčně. Několik řádků kódu a váš osobní agent za vás může začít plnit úkoly.
Pokud by vás zajímalo, jak je to s kvalitou video generation nástrojů pro tvorbu realistických videí, tady máte upravený open-source Hunyuan model. Se správnými nástroji, know-how a daty už můžete vytvářet videa, která nerozeznáte od reality. Není to úplně triviální, ale možná je to jen otázka času.
Případně, pokud jste si říkali, kdy konečně uvidíte pořádné video se žirafou visící hlavou dolů ze stromu, váš sen se právě splnil.
–––
AI News připravuje Martin Sumera.
Futured & AI. AI se do technologických řešení propisuje stále více, proto máme ve Futured dedikovaný AI tým, který se specializuje na integraci AI do nejrůznějších firemních procesů. Zpravidla se jedná o činnosti, které zabírají hodně času nebo vyžadují zapojení hodně lidí.
Baví vás, jak o technologiích přemýšlíme? Zajímá vás, jak můžete AI využít pro svůj byznys? Napište Lukášovi Strnadlovi, který Futured založil: [email protected] & +420 605 312 459.
Chcete se k nám přidat? Aktuálně hledáme hned několik kolegů. Ozvěte se Míše Kormošové a pobavte se o možnostech spolupráce: [email protected] & +420 739 106 507.