Mindenki elájult a Google NotebookLM „Audio Overview” funkciójától, ami egy száraz PDF-ből izgalmas, kétemberes podcast beszélgetést generál. Szórakoztató? Igen. Hasznos? Abszolút. De feltöltenéd oda a céges bérlistát vagy a titkos projekttervet? Na ugye. Szerencsére megérkezett az Open Notebook, ami mindezt tudja, de a te gépeden.
Az elmúlt hónapok egyik legnagyobb virális sikere a Google NotebookLM volt. A diákok imádják, mert a 100 oldalas jegyzetből 10 perces hanganyagot készít, amit a buszon meghallgathatnak. A kutatók szeretik, mert gyorsan átlátják vele az összefüggéseket. A biztonsági szakemberek viszont a fejüket fogják:
„Már megint mindenki mindent feltölt a felhőbe anélkül, hogy elolvasná az apróbetűs részt.”
Ha te is azok közé tartozol, akik szeretnék élvezni az MI kényelmét, de nem akarnak adatvédelmi orosz rulettet játszani, akkor az Open Notebook a te eszközöd. Ez egy nyílt forráskódú projekt, ami lemásolja a Google funkcióit, de teljes kontrollt ad a kezedbe. Ebben a cikkben megmutatjuk, hogyan telepítsd, és miért ez a privát MI jövője.
Mi a baj a felhővel?
Mielőtt belevágunk a telepítésbe, tisztázzuk. Miért bajlódnál a saját rendszer futtatásával, ha a Google ingyen adja?
A válasz egy szó: Adatszuverenitás.
Amikor feltöltesz egy dokumentumot egy publikus MI-szolgáltatóhoz, az adatok elhagyják a gépedet. Bár a legtöbb cég ígéri, hogy nem használja fel tanításra, a vállalati titkoknál az „ígéret” nem elég. Az Open Notebook ezzel szemben:
- Lokális vagy privát API: Használhatod a saját gépeden futó modellt (Ollama), vagy egy olyan API-t (pl. Groq), ahol szigorúbbak az adatvédelmi szerződések.
- Transzparencia: Mivel nyílt forráskódú, pontosan látod a kódban, mi történik az adataiddal. Nincsenek rejtett kapuk.
- Testreszabhatóság: Nem tetszik a női hang a podcastban? Cseréld le. Másik nyelvi modellt akarsz? Állítsd át.
Hogyan működik?
Az Open Notebook nem egyetlen varázslatos szoftver, hanem több modern technológia okos ötvözete. A fejlesztők egy klasszikus RAG (Retrieval-Augmented Generation), azaz kereséssel kiegészített generálási folyamatot építettek fel.
Íme a recept:
- Agy (LLM): A rendszer alapértelmezetten a Llama 3 modellt használja, általában a 70B verziót a jobb minőségért. Ez felel a szövegértésért és a dialógus megírásáért.
- Motor (Inferencia): A sebesség érdekében a Groq API-t használják. Ez azért fontos, mert a Groq speciális LPU (Language Processing Unit) chipjei villámgyorsak, így nem kell perceket várnod a válaszra.
- Hang (TTS): A szövegből beszéd átalakításhoz a MeloTTS vagy a Bark modelleket használja. Ezek képesek érzelmeket, hangsúlyokat és természetes szüneteket vinni a beszédbe, hogy ne úgy hangozzon, mint egy 1990-es GPS navigáció.
- Felület (UI): Az egészet egy Streamlit alapú webes felület fogja össze, ami Pythonban íródott, és rendkívül letisztult.
Telepítési útmutató
Nem kell megijedni, nem kell atomfizikusnak lenned a telepítéshez, de a parancssor használata szükséges.
1. Előfeltételek
Győződj meg róla, hogy van telepítve Python 3.9+ a gépedre, és rendelkezel egy Groq API kulccsal.
2. A kód megszerzése
Nyisd meg a terminált, és klónozd le a projektet, vagy töltsd le a ZIP-et a GitHubról.
# Klónozzuk a repository-t
git clone https://github.com/your-repo/open-notebook.git
# Belépünk a mappába
cd open-notebook
3. Környezet beállítása
Mindig használj virtuális környezetet (venv), hogy ne kavarodjanak össze a Python csomagjaid!
# Virtuális környezet létrehozása
python -m venv venv
# Aktiválás (Windows)
venv\Scripts\activate
# Aktiválás (Mac/Linux)
source venv/bin/activate
# Csomagok telepítése
pip install -r requirements.txt
4. A titkos kulcsok megadása
Hozz létre egy .env fájlt a mappa gyökerében, és másold bele a kulcsodat:
GROQ_API_KEY=gsk_sajatkulcsod...
5. Indítás!
Egyetlen parancs választ el a sikertől:
streamlit run app.py
Ha mindent jól csináltál, megnyílik a böngésződ, és ott fogad az ismerős felület: Feltölthetsz PDF-et, bemásolhatsz YouTube linket, és kezdődhet a varázslat.
Mit tud, amit a Google nem?
Azon túl, hogy az adatok nálad maradnak, van néhány izgalmas különbség:
- YouTube videók feldolgozása: Nem kell letöltened a videót. Csak megadod az URL-t, a rendszer kiszedi a feliratot, és abból készít összefoglalót vagy podcastot.
- Szabályozható „Podcast”: Míg a Google-nél csak egy „generálás” gomb van, itt belenyúlhatsz a forgatókönyvbe. Megmondhatod, hogy a két beszélgető fél (host és guest) milyen stílusban vitatkozzon. Legyenek szarkasztikusak? Vagy szigorúan akadémikusak? Te döntesz.
- Többnyelvűség: Mivel a Llama 3 és a modern TTS modellek jobban kezelik a többnyelvűséget, kísérletezhetsz magyar nyelvű tartalommal is, bár a podcast funkció angolul a legtermészetesebb egyelőre.
Korlátok és kompromisszumok
Legyünk őszinték, ez egy nyílt forráskódú projekt, nem egy milliárd dolláros termék.
- Minőség: A Google hanggenerálása jelenleg még simább, természetesebb, kevesebb benne a robotikus mellékzönge.
- Erőforrás: Ha lokálisan akarsz mindent futtatni (Groq nélkül, pl. Ollamával), akkor szükséged lesz egy erős videókártyára (GPU).
- Stabilitás: Néha előfordulhatnak hibák, szétcsúszhat a szöveg. Ez a „kísérletezők” játszótere.
A jövő decentralizált
Az Open Notebook tökéletes példája annak, hogy a nyílt forráskódú közösség milyen gyorsan reagál. Alig pár hónapja jelent meg a NotebookLM, és máris itt a szabad alternatíva. A mivagyunk.hu-nál azt javasoljuk, érzékeny adatokhoz használd ezt, minden máshoz ott a Google.
Ne félj telepíteni! A saját infrastruktúra építése az első lépés afelé, hogy ne csak felhasználója, hanem ura legyél a mesterséges intelligenciának.




