@@ -21,6 +21,66 @@ Informace jsou členěny do sekcí ve wiki:
[Magazines, portals, repositories...](https://gitlab.cesnet.cz/704/AI-Knowledgebase/ai-knowledgebase/-/wikis/Magazines,-portals,-repositories...) - další zdroje informací a dat
## Obecné poznatky
- Generativní modely (vytvářejí obsah na základě textového zadání) lze dělit na jazykové (LM) a se specifickou modalitou (např. generování grafiky, zvuku, videa). Existují i modely multimodální (generují např. text i video).
- Velké jazykové modely (LLM) se obvykle trénují jako univerzální, jejich úpravou, nebo trénováním na specifickém datasetu lze vytvořit model specializovaný na určitou oblast (např. programování), tyto modely mohou být výrazně menší. Pro specifické účely (např. medicínské) lze vytvářet i specializované velké modely, musí být ale k dispozici dostatečně velká datová sada pro primární trénink, který model zajistí schopnost používat přirozený jazyk.
- Z hlediska dostupnosti se modely dělí na otevřené (Open source), které může provozovat kdokoliv s dostatečně výkonným HW, a uzavřené. Uzavřené modely zpravidla provozují společnosti, které je vytvořily, OpenAI (např. GPT), Google (např. Gemini), Anthropic (Claude) a X (Grok). Tyto společnosti obvykle nabízejí přístup k modelům jak přes vlastní rozhraní, tak pomocí API (přístup pro programátory).
- Jsou k dispozici i nástroje (např. Perplexity), které umí sdružit rozhraní k více různým modelům, uživatelé si tak mohou vybrat model, se kterým budou komunikovat.
- Univerzální modely jsou obvykle trénované na datasetu získaného sběrem dat z celého Internetu (existují společnosti, která data sbírají a poskytují databáze jako je Bright Data), jednotlivé modely se liší hlavně architekturou a způsobem dotrénování. Obvykle tak podporují více jazyků včetně češtiny.
- Schopnosti modelu generovat výstupy během tzv. Inference jsou obvykle dané kvalitou datasetu pro primární trénink a rozsahem/způsobem dotrénování. Jejich kvalita se ověřuje pomocí benchmarků. Jelikož tyto benchmarky používají určitý soubor úloh, lze modely dotrénovat na tyto úlohy a vypovídající hodnota výsledků benchmarků postupně klesá. Benchmarky jsou obvykle zaměřeny na určité typy úloh (např. matematické, programovací)
- Inference souvisí s tzv. tokeny, které u jazykových modelů obyvkle odpovídají několika znakům (např. 4). Jak otázka (prompt), tak i odpověď modelu tedy obsahují určitý počet tokenů, což má vliv na výpočetní náročnost a potažmo i na cenu služby.
- Informace, ze kterých umí model vytvořit odpověď lze rozšířit poskytnutím kontextu (či dalších informací) přiložených k otázce (promptu). Rozsah těchto dat je omezen kontextovým oknem konkrétního modelu, novější modely mají okna v řádů statísíců tokenů.
- Další způsob, jak rozšířit “znalosti modelu” spočívá v metodě RAG (Retrieval-Augmented Generation), která spočívá v připojení předzpracovaných souborů textových dat (ve formě embeddings). Ty mohou být uloženy ve vektorové databázi. RAG lze použít jak s lokálními modely, tak s uzavřenými modely přístupnými přes API.
- Novější univerzální modely jsou schopné pro potřeby inference prohledávat internet (pokud nebyla odpověď na otázku v jejich datasetu) včetně uvádění zdrojů informací.
- Dále se objevila možnost tzv. reasoning, kdy model rozdělí úlohu na více kroků a ty řeší postupně, je tak schopen řešit složitější úlohy. Tento postup generuje výrazně větší množství tokenů. Nemusí to však znamenat zásadní kvalitativní posun výstupů, protože tento postup je třeba modely dotrénovat na konkrétních úlohách.
- Je třeba rozlišovat aplikace (nástroje) a modely, aplikace je rozhraní k modelu, které uživateli nějakým způsobem zprostředkovává určité funkce modelu. APlikace může některé věci dělat pro uživatele lépe, než model samotný, například tím, že používá skryté promty. Přímé rozhraní k modelu obvykle nabízejí jejich tvůrci (jako je OpenAI)
- Vzhledem k tomu, že modely jsou (do)trénované an různých datech, různým způsobem a s různým cílem (třeba řešit určité typy úloh), není dobré zobecňovat poznatky s jejím používáním na základě zkušenosti s určitým produktem a určitou úlohou (např. AI je dobrá v tom a tom)
## Omezení
- Generativní modely mohou poskytovat nepravdivé výsledky (halucinace) zejména v případě, že že dotaz míří na informace neobsažené v původním datasetu. Toto omezení nelze principielně odstranit, protože modely neumí upravovat svojí strukturu během inference (stále se učit) a zároveň nemají metakognici, která by je na nedostatek v datech upozornila. Množství halucinací lze zmírnit např. dotrénováváním a hledáním výstupů na internetu, ale u faktických informací (např. kdy byla bitva u Lipan) je vždy spojeno s dostupností příslušných dat (ať již v původní datové sadě, při dotrénování, nebo externě). Nové (i reasoning) modely tak mohou generovat i více chyb, než ty starší.
- Zatím nejsou dostupné metody, jak modely kompletně aktualizovat, po dotrénování jsou schopnosti modelu v podstatě fixní. Nová verze modelu tak obvykle vyžaduje časově a finančně nákladné trénování struktury v podstatě od začátku. Z modelů lze ale vytvářet menší a specializované verze (destilací, fine tuningem).
- Trh s aplikacemi od třetích stran je značně nepřehledný, poskytovatelé používají univerzální modely pro specifické operace (např. chat společníci), dotrénované Open source modely, nebo kombinaci obojího. S rychlými obměnami modelů tak mohou rychle vznikat a zanikat různé služby a měnit se kvalita či cena výstupů.
- Při komunikaci s modelem prostřednictvím rozhraní třetích stran není jasné, co s vloženými daty děje (poskytovatel služby je může ukládat), než jsou vloženy do modelu, a než jsou předány zpět uživateli (odpověď modelu). To představuje bezpečnostní rizika, samotný model nikoliv (model se během konverzace neučí).
- U modelů zejména čínské provenience hrozí, že byly (do)trénovány na vyjadřování určitých kulturních či hodnotových postojů, které mohou mít vliv i na prezentovaná fakta (např. popis historických událostí).
- Ačkoliv si modely z principu nemohou “pamatovat” celou historii všech Inferencí, tyto informace může ukládat např. poskytovatel služby (např. OpenAI). Může tak nabízet personalizované odpovědi, záleží ovšem na strategii poskytovatele, k čemu tyto informace využije. Některé společnosti (Google, OpenAI) tak plánují využívat historii interakcí k rozšíření obchodních aktivit, například k nabídkám zboží třetích stran.
- Výstupy LLM již mohou obsahovat zdroje informací, ty ale nemusí být primární a nebo mohou být vytržené z kontextu původního článku. Dochází tak ke zkreslení fakt jejich násobným odkazováním (např. původní článek někdo nepřesně cituje a další odkaz již míří na článek s touto nepřesnou citací původního zdroje).
- Bezpečnost při komunikaci se vzdáleným modelem (v cloudu) závisí na tom, zda probíhá šifrovaně a jakým způsobem s daty poskytovatel služby zachází (zda je například ukládá, používá pro trénink dalších modelů nebo pro obchodní sdělení).
## Ekonomika provozu
- Zpoplatnění se vztahuje k množství použitých tokenů (u otázky či odpovědí), pro koncové uživatele obvykle formou předplatného, které zahrnuje určitý počet tokenů. Přístup přes programovací rozhraní obvykle umožňuje platby za počet použitých tokenů (s definovanou cenou za jeden token).
- Provozovatelé rozhraní (např. Perplexity) dovolují uživatelům přistupovat v rámci jednoho předplatného k různým placeným modelům.
- Na trhu panuje vysoká konkurence, ceny za tokeny se mění a liší podle strategie jednotlivých firem. Lokální modely vyžadují vhodné běhové prostředí a grafickou kartu s dostatkem paměti, rozdělení modelu mezi více karet je netriviální úloha, rovněž je třeba vyřešit load balancing pro Inference. Roli hrají i kontextově zpracovávané informace a způsob Inference (např. nároky při reasoning výrazně rostou).
## Shared project platform Nautilus
Postupy je po dohodě s Michalem Krskem a Milošem Liškou možné LLM testovat na NRP (National Research Platform) přes přístupový bod v CESNETu. NRP běží pod entitou, která se jmenuje Nautilus, jedná se o uživatelské rozhraní postavené na Linuxu/Kubernetes.
...
...
@@ -30,4 +90,4 @@ AAA už je federované tak, ze naši uživatelé k němu mají přístup. V ČR
Dokumentace k Nautilu:
https://nationalresearchplatform.org/nautilus/
https://docs.nationalresearchplatform.org/
Seznam projektu/namespaces, je na adrese: https://portal.nrp-nautilus.io/namespaces-g