Microsoft fejlesztések, amelyek mutatták az utat az AI-hoz

Microsoft AI (MAI)

Azok számára, akik nem ismerik a Microsoft történetét, úgy tűnhetett, hogy a mesterséges intelligencia (AI) a semmiből bukkant elő pár évvel ezelőtt, készen arra, hogy teljesen átalakítsa a környező világgal való interakcióinkat. A valóság ezzel szemben az, hogy az új technológia megjelenését több évtizedes innováció előzte meg: sok kisebb jelentőségű előrelépés történt például a gépi tanulás vagy a természetes nyelvek feldolgozása terén, és a fejlesztés azóta sem nem állt le.

Kétségtelen, hogy Bill Gates 1975-ben nem az AI kutatásával töltötte az első munkanapját, ugyanakkor a Microsoft az elmúlt ötven év során számos olyan mérföldkőhöz érkezett el, amely elvezetett ahhoz az innovációhoz, amelyet ma generatív AI-ként ismerünk. A Microsoft alapításától fogva a technológiai innováció élvonalában volt: 1985-ben a Microsoft bevezette az első operációs rendszert, tíz évvel később pedig Gates megjósolta az internet korszak eljövetelét Tidal Wave című írásában. A Microsoft Research a Bayesian Network-on és Z3 theorem prover-en keresztül közölte azokat a tanulmányokat, amelyek kikövezték az utat az AI-ig.

Az alábbiakban azt mutatjuk be, hogy milyen mérföldköveken keresztül jutottunk el addig, hogy az AI a mindennapi élet szerves részévé vált, illetve milyen lépéseket tervez megtenni a vállalat azért, hogy az AI platformok, infrastruktúra és eszközök még megbízhatóbban működjenek.

A Bing természetes nyelvi képességekkel bővül

A Bing a Windows Live Searchből fejlődött ki, és már 2009-es indulásakor is számos figyelemre méltó gépi tanulási funkciót tartalmazott, köztük a keresési javaslatokat a lekérdezés bevitele során, valamint a kapcsolódó keresések listáját, az úgynevezett „Explore panel”-t. Ezek a funkciók a Microsoft által 2008-ban felvásárolt Powerset cég szemantikai technológiáját használták.

Az Oxford projekt az Azure AI-képességek jelentős bővülését hozta

A Microsoft számos technikai fejlesztése az Azure sikerére épül. A 2015-ben indult Oxford projekt olyan technológiákatProject Oxford biztosított a fejlesztők számára, amelyeket azok az arc- és hangfelismerő, illetve a nyelvi megértést támogató alkalmazásaikba tudtak beépíteni. Ez a megoldás ma Azure AI Foundry néven ismert.

„Nagyon sok minden a Bing-re vezethető vissza” – állítja Eric Boyd, a Microsoft Azure AI Platform vállalati alelnöke, aki a Bing Ads fejlesztésével kezdte microsoftos pályafutását. „Az egész infrastruktúrát úgy építettük fel, hogy az alkalmas legyen az AI-modellek betanítására, a kísérletezésre, és hogy lássuk, melyik AI-modell teljesít a legjobban. Ennek az infrastruktúrának a darabjaiból épültek fel azok a dolgok, amelyeket ma az Azure AI-on keresztül kínálunk”.

Ezek közzé tartoznak az AI-alapú chat alkalmazások, a Microsoft Cognitive Services, a felelős AI-eszközcsomag és az Azure OpenAI Service, amely a nagy nyelvi modelleket az Azure vállalati képességeivel kombinálja. Jelenleg több mint hatvanezer szervezet használja az Azure AI Foundry-t, és a Fortune 500 vállalatok 65 százaléka alkalmazza az Azure OpenAI szolgáltatást.

Új keretrendszer javítja a mély neurális hálózatok betanítását és növeli a teljesítményüket

A Microsoft a Research Deep Residual Networks, más néven ResNet 2015-ben történt bemutatásával bizonyította, hogy valódi áttörést sikerült elérni. A reziduális tanulási keretrendszer jelentősen javította a mély neurális hálózatok betanítását, lehetővé téve a jobb teljesítményű, még mélyebb architektúrák fejlesztését; segített megnyitni az utat a gyakorlati alkalmazások széles köre előtt, amelyek közül sok ma már létfontosságú az életünkben.

„A ResNet fektette le a számítógépes képalkotás alapjait, amely ma széleskörben használatos” – mondta el Peter Lee, a Microsoft Research elnöke. „Például az önvezető autók is a ResNet alapú mesterséges intelligenciát használják, vagy ha a klinikán MRI-t készítenek valakiről, a diagnosztikai eszköz szintén ResNet-alapú technológiát használ.”

Nagy előrelépés a multiszenzoros és többnyelvű tanulásban

A 2015 után következő öt évben a Microsoft a beszédfelismerés, a gépi fordítás, a beszéltnyelvi kérdések megválaszolása, a gépi olvasásértés, valamint a képfelismerés és -elemzés terén egyedülálló eredményeket ért el.

Ezek meghatározó szerepet játszottak a mesterséges intelligencia képességeinek ugrásszerű fejlődésében, a multiszenzoros és többnyelvű tanulás megvalósításában, amely közelebb áll az emberi tanuláshoz és megértéshez. Ezek az áttörések vezettek az XYZ-kód kifejlesztéséhez, amely az emberi megismerés három jellemzőjét – egynyelvű szöveg (X), hang- vagy vizuális érzékszervi jelek (Y) és többnyelvűség (Z) – egyesíti. Ezt az Azure AI-szolgáltatásokba integrálták, így segítve elő az AI-rendszerek teljesítményének és sebességének növekedését.

A képek hallhatóvá váltak: javult az akadálymentesítés

A Microsoft 2016-ban vezette be a Seeing AI technológiát azzal a céllal, hogy hozzáférhetőbbé tegye a szolgáltatásait látáskárosult felhasználóinak. Az AI ezúttal számítógépes látást és a természetes nyelvek feldolgozásának képességét hívta segítségül ahhoz, hogy leírja a környezetet, hogy felolvastasson a géppel szövegeket, hogy a hangosan feltett kérdéseket megválaszolja, hogy a szöveges és képi jeleket felismerje (például azonosítja a valutákat), sőt a számítógépet képessé tette a személyek és arckifejezések felismerésére is.

A Find My Things funkció segít a vak vagy gyengén látó embereknek személyre szabni a keresési élményt azáltal, hogy megtanítja az eszközt felismerni használati tárgyakat és az esetlegesen rosszul elhelyezett tárgyakat, például az olyan apró tárgyakat, mint egy lakáskulcs vagy egy fülhallgató.

Az akadálymentesítés mindenki számára megkönnyíti a Microsoft eszközeihez és technológiáihoz való hozzáférést. A Reading Coach azonban a diákoknak is segít megtanulni az olvasást, miközben hatékonyan támogatja a diszlexiás tanulókat.

Az AI felgyorsul

2017-ben jelent meg a Brainwave, egy mélytanulás-gyorsító platform, amelyet a valós idejű és nagy erőforrásigényű AI-feladatok futtatására terveztek a Microsoft felhőinfrastruktúráján belül. A Brainwave FPGA-kat (Field Programmable Gate Arrays), vagyis nagy teljesítményű, sokoldalú és nagymértékben testreszabható integrált áramköröket használ nagy teljesítményű szoftverekhez, jelentősen megnövelve az AI-modellek teljesítményét, különösen az olyan feladatok esetében, mint a képfelismerés és a természetes nyelvi feldolgozás. A Brainwave fontos előrelépést jelentett AI hardver és a felhőalapú AI-feladatfeldolgozás, például képelemzés, szövegfordítás vagy természetes nyelvi válaszok generálása terén.

Elindul a nagy nyelvi modellek fejlesztése

2020-ban a Microsoft kiadta a Turing-NLG-t (Natural Language Generation), ennek az időszaknak az egyik legnagyobb méretű nyelvi modelljét, amely 17 milliárd paramétert tartalmazott. Ez bizonyította ismét, hogy a Microsoft a természetes nyelv megértését szolgáló mesterséges intelligencia fejlesztésében vezető szerepet tölt be, megelőzve versenytársait – például a képfelismerésre tervezett Florence modell csak ezt követően jött ki.

A Nuance bemutatja az első egészségügyben alkalmazható klinikai AI-megoldást

A DAX Copilot, amely jelenleg a Dragon Copilot részét képezi, azzal hozott jelentős előrelépést az egészségügyben, hogy lehetővé tette az orvosok számára a betegekkel és családtagokkal folytatott konzultáció valós idejű, hangalapú dokumentálását. Magyarán, az orvos a megbeszélés során kizárólag a betegre figyel, és utólag sem kell bajlódnia az adminisztrációval.

A DAX 2020-ban vált széleskörben elérhetővé, 2023-ban pedig a DAX Express lett az első olyan megoldás, amely a GPT-4-gyel együtt használja a beszéd- és kontextusfelismerő intelligenciát. A háttérben működő, kontextusfelismerő AI megoldást ma már több mint hatszáz nagy egészségügyi rendszer használja és havonta több mint hárommillió esetet jegyez le, amelyek száma folyamatosan nő.

Az Azure szuperszámítógépei újabb és újabb OpenAI innovációk előtt törik az utat

A Microsoft 2020-ban olyan szuperszámítógépet mutatott be, amely az Azure infrastruktúrájának a része, és amely az OpenAI által működtetve nagy mesterséges intelligenciamodellek betanítását szolgálja. Ezzel nyílt meg az út ahhoz, hogy ezek a modellek platformokba beépülve széleskörben váljanak elérhetővé. A megjelenés időpontjában a Microsoft szuper-számítógépe egyike volt a világ öt legerősebb gépének. A következő években a Microsoft ezt az infrastruktúrát újabb AI-szuperszámítógépekkel bővítette azért, hogy támogassa az AI-alapú alkalmazásfejlesztést, az AI modellek betanítását és a gépi tanulást.

Az OpenAI-val való partnerséget a közös küldetés és célok alapozták meg. A két fél arra vállalkozott, hogy minden más szereplőnél ambiciózusabb célokat felállítva és felelős módon fejlesszék a generatív mesterséges intelligencia alapú megoldásokat. Közösen építettek ki az Azure rendszerén belül egy egyedülálló szuperszámítógépes infrastruktúrát, hogy felgyorsítsák az OpenAI-on belül zajló innovációt. Az együttműködésük révén nemcsak azt értették meg jobban, hogyan lehet megalkotni a világ legjobb AI-platformját, hanem – ami még ennél is fontosabb – azt is, hogyan lehet ennek előnyeit az ügyfelekhez és az átlagfelhasználóhoz is eljuttatni.

Az AI forradalmasította a kódolást

A Microsoft előbb felvásárolta a GitHub-ot, majd 2021-ben létrehozta a GitHub Copilot-ot. Ez egy AI-alapú asszisztens, amely kifejezetten a kódoláshoz nyújt segítséget. A fejlesztők olyan modellek között választhatnak, mint az Anthropic Claude 3.5 Sonnet, a Google Gemini 2.0 Flash, valamint az OpenAI o3-mini és GPT-4o. Az asszisztens kódsorokat javasol, a válaszokat pedig az adott kontextustól függően értelmezi. Ez a megoldás egy újabb területen tette lehetővé a mesterséges intelligencia alkalmazását ügyfelek, egyéni felhasználók és fejlesztők számára. A GitHub Copilot-ot ma már több mint hetvenhétezer szervezet használja világszerte a kódolás megkönnyítésére, és egyre inkább egy olyan alkotótársként funkcionál, amely a kódírást ellenőrzi is.

Az AI átalakítja a keresés funkciót, innovációkat generál a munka világában és az élet minden területén

2023-ban a Bing és az Edge mesterséges intelligenciával egészült ki, amely földrengésszerű változást idézett elő a kereső funkció használatában. Az elkövetkező év során, ennek köszönhetően integrálódott a Copilot a teljes Microsoft ökoszisztémába. A Copilot újabb változatai láttak napvilágot, és ma már nem csupán információval látják el felhasználóikat, hanem valódi munkatársként, asszisztensként működnek. A Voice és a Vision bevezetésével a Copilot képessé vált arra is, hogy alkalmazkodjon a felhasználójához – egyéni válaszokat, tanácsokat ad, amelyek segítenek eligazodni az embereknek a mindennapi életben.

Azt követően, hogy a mesterséges intelligencia 2023-ban beépült Bingbe, a Microsoft gyorsan integrálta a Copilotot a teljes termékportfóliójába. A Microsoft 365 Copilot révén az emberek még hatékonyabbak lehetnek a mindennapokban, míg a Dynamics 365 és a Power Platform az üzleti folyamatok átalakítását támogatja.


 

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Fel!