در این مقاله، به بررسی جدیدترین اخبار و تحولات در حوزه هوش مصنوعی در سال ۱۴۰۴ میپردازیم. از معرفی مدلهای پیشرفته توسط شرکت های بزرگ مانند OpenAI و Google گرفته تا نوآوریهای جالب در زمینه تولید تصویر و ویدیو.
OPENMAI و مدل GPT-4.1
OpenAI مد ل جدید GPT-4.1 را معرفی کرده است. این مدل در مقایسه با نسخههای قبلی مانند GPT-4 و GPT-4.5، دقت بالاتری در حوزههایی مانند ریاضیات و برنامه نویسی دارد، در حالی که هزینه استفاده از آن کاهش یافته است. اما نکته اینجاست که openai تصمیم گرفته مدل ۴ را حذف کند و مدل 4o را جایگزین کند. از سوی دیگر، در API فقط مدل GPT4-1 در دسترس است، و این مدل از نظر دقت کمی بهتر از مدل GPT4-5 است، اما هزینه آن بسیار ارزان تر است. بنابراین، openai به جای مدل GPT4-5 از مدل GPT4-1 استفاده میکند. مقایسههایی که انجام شده نشان میدهد که مدل GPT4-1 از مدل GPT4-5 و مدلهای قدیمی تر مانند GPT 3 در حوزههای مختلفی مثل ریاضیات و کد نویسی بهتر عمل میکند، اما در بنچمارک هایی مثل پیروی از دستورالعملها کمی ضعیف تر از GPT4-5 عمل میکند. این تفاوت قیمتها بسیار توجیه پذیر است.
همچنین، openai مدلهای O3 و O4 mini را ارائه داده که به نوعی مدلهایی هستند که از نظر تفکر و تحلیل عملکرد بهتری دارند. این مدل ها می توانند در مسائل پیچیده بهتر عمل کنند و نسبت به مدلهای قبلی مثل O3 و O4 mini عملکرد بهتری دارند. به علاوه، مدلهای جدید این امکان را دارند که به ابزارهای مختلف مثل پایتون و جستجوگر اینترنت دسترسی پیدا کنند که موجب افزایش دقت در انجام وظایف مختلف میشود.
علاوه بر این، این مدلها قابلیت تجزیه و تحلیل تصاویر را نیز دارند. به عنوان مثال، یکی از کاربران عکسی را به مدل داده و از آن خواسته که محل عکس را تشخیص دهد. مدل با توجه به جزئیات عکس مثل نوع پلاک ماشینها، ساختمانها و حتی زبان و نوع ماشینها، توانسته بود دقیقاً مکان عکس را تشخیص دهد. این قابلیت تجزیه و تحلیل تصویر باعث شده که این مدل ها حتی از نظر قدرت شناسایی اطلاعات موجود در تصاویر نیز تواناییهای بیشتری پیدا کنند.
همچنین، openai در حال پیشرفت در زمینهای است که مدلها بتوانند ایدههای جدید را خودشان ارائه دهند. این یعنی مدلها دیگر تنها دادههای موجود را تحلیل نمیکنند، بلکه میتوانند خود شان روشها و ایدههای جدیدی پیشنهاد دهند. این پیشرفت یکی از گامهای مهم در جهت رسیدن به هوش مصنوعی عمومی (AGI) است.
لینک مربوطه : https://openai.com/index/gpt-4-1/
https://openai.com/index/introducing-o3-and-o4-mini/
https://www.theinformation.com/articles/openais-latest-breakthrough-ai-comes-new-ideas
مدل Gemini 2.5
Google مدل هوش مصنوعی جدید خود به نام Gemini 2.5 را رونمایی کرده است. این مدل توانایی پردازش تا یک میلیون توکن ورودی را دارد، گوگل به رغم دیرتر وارد شدن، ابزارها و زیرساختهای بیشتری دارد که به آن اجازه میدهد تا حتی از مدلهای پیشرفته ای چون GPT 4.5 و Cloud 3.7 پیشی بگیرد. مدل Gemini 2.5 Pro و2-5 Flash برای مدت هاست که در رتبه اول جدول LLM ها قرار دارند و از مدل های دیگر همچون GPT 4 و Grok3 بهتر عمل میکنند. این مدلها حتی در مقایسه با GPT 4.5 نیز برتری دارند.
همچنین، Gemini 2.5 قابلیتهای چند وجهی مانند پردازش متن، تصویر و صدا را به طور همزمان داراست.
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
https://aistudio.google.com/prompts/new_chat
Meta و مدل LLaMA 4
شرکت Meta مدل LLaMA 4 را معرفی کرده است. این مدل اوپن سورس با ساختاری متشکل از چندین اکسپرت طراحی شده و در برخی زمینهها عملکرد بهتری نسبت به مدلهای دیگر دارد.LLaMA 4 قابلیتهای مالتی مودال دارد، به این معنی که میتواند تصاویر، صدا و متن را پردازش کند.
لینک مربوطه :
Google و پروژه Dolphin Gemma
Google در حال کار بر روی مد لی به نام “Dolphin Gemma” است که برای تفسیر زبان دلفینها طراحی شده است. این مدل می تواند در برقراری ارتباط با موجودات دریایی و حتی زیر دریاییها مفید باشد. این گام اولیه برای فهمیدن زبان حیوانات است و به طور بالقوه در ارتباطات زیر دریایی میتواند نقش مهمی داشته باشد.
لینک مربوطه :
https://blog.google/technology/ai/dolphingemma/
ایجنت ها و تعامل پذیری پروتکل MCP (Model Context Protocol)
پروتکل MCP، که توسط شرکت Anthropic معرفی شده است، یک استاندارد برای ارتباط بین مدلهای زبانی و ابزارهای مختلف فراهم میکند. این پروتکل ارتباط بین LLMها و ابزارهای مختلف را ساده تر و استاندارد تر میکند. اگر بخواهیم به صورت کلی بگوییم که MCP چیست ؟ میتوانیم بگوییم
وقتی شما میخواهید یک ایآی ایجنت بسازید یا یک LLM را به ابزارهای مختلف متصل کنید، با مشکلی مواجه میشوید. ابزارهای مختلف نحوه خروجی دادن اطلاعات خود را به شیوههای مختلف انجام میدهند و LLM نمیداند که چطور باید با هر کدام از اینها ارتباط برقرار کند. در نتیجه، کاربرها مجبور میشوند برای هر کدام از این ابزارها یک API تعریف کنند.
Cloud آمده است با استفاده از MCP، یک راه استاندارد برای ارتباط بین LLMها و این ابزارها ایجاد کرده است. یک مثال خوب که در این مقاله آمده، MCP را به پیش خد مت رستورانی تشبیه کرده است. شما سر میز نشسته اید و به عنوان LLM ، یک غذا سفارش میدهید. پیش خدمت، که همان MCP است، سفارش شما را به آشپزخانه میرساند و کارهای مربوطه انجام میشود. شما دیگر نیازی نیست نگران این باشید که چطور با آشپزخانه ارتباط برقرار کنید، فقط منتظر غذا میمانید.
مزیت مهم MCP این است که اولاً استاندارد شده است، یعنی ابزارهای مختلف حالا می توانند با مدل های زبانی به طور استاندارد ارتباط برقرار کنند. این کار ارتباط بین آنها را راحت تر میکند. امنیت و کنترل دسترسی به دادهها نیز به راحتی قابل کنترل و محدود شدن است. حالا بسیاری از ابزارهای مختلف از جمله جیمیل، اسلک، گیتهاب، حتی OPENAI و گوگل به MCP پیوسته اند و پلاگینهای مخصوص خود را ارائه دادهاند.
در N8N، اگر ویدیو مربوط به N8N را دیده باشید، به این صورت است که یک نود MCP سرور ایجاد میشود و ابزارهای مختلف به این سرور وصل میشوند. وقتی این سرور راهاندازی شد، ای آی ایجنت شما به این MCP کلاینت وصل میشود و از آن به طور استاندارد با ابزارهای مختلف ارتباط برقرار میکند. همه چیز به طور خودکار و استاندارد انجام میشود.
لینک مربوطه :
https://www.anthropic.com/news/model-context-protocol
Google و پروتکل agent to agent
گوگل هم یک پروتکل جدید به نام ایجنت تو ایجنت ارائه داده که هدف آن ارتباط بین ایجنتهای مختلف است. این پروتکل بسیار مشابه MCP است، اما از جهاتی تفاوت هایی دارد. هدف این است که ایجنتهای مختلف بتوانند با هم ارتباط برقرار کنند، حتی اگر حافظه مشترک ندارند. این شباهت به تعاملات انسانهاست که میتوانند با یکدیگر ارتباط برقرار کرده و کارها را تقسیم کنند.
بسیاری از شرکتها و سیستمها در حال حاضر در حال آمادگی برای استفاده از این پروتکل هستند و پیشبینی میشود که استفاده از آن به زودی رایج شود.
لینک مربوطه :
نوآوریها در تولید تصویر و ویدیو Eleven Labs
قابلیت جدیدی به نام “Actor Mode” ارائه داده است که امکان تنظیم لحن صدا را به دلخواه فراهم میکند. شما میتوانید به ابزار Eleven labs آموزش دهید که چگونه لحن صدا را تغییر دهد تا به طور طبیعی تر و احساس برانگیزتر خوانده شود. این یک ابزاریه شما متن بهش مید هید و صوت تحویل میگیرید و بین ابزار های دیگر خیلی واقعی تره و الان هم یک امکانی داره که میتونید بهش بگید که با چه لحنی اون متن رو بگه .
توئیتر : @elevenlabsio
Minimax
این شرکت نیز به تازگی مدلی برای تبدیل متن به صدا ارائه داده است که بسیار طبیعی تر و روان تر صحبت می کند به گونه ای که انگار انسان دارد حرف میزند و دیگر شبیه به قبل رباتی حرف نمیزنند و توی تولید محتوا این ابزار بسیار میتونی کمک کنه .
توئیتر : @minimax_ai
Luma AI
ابزاری معرفی کرده است که میتواند نقاشیهای دستی یچه ها و یا خودتان را به انیمیشن تبدیل کند.
توئیتر: @lumalabsai
Pika Labs
این ابزار جدید به شما این امکان را میدهد که یک بخش خا ص از ویدیو را تغییر دهید. به عنوان مثال، می توانید یک ماشین را از حرکت عادی به پرواز تغییر دهید، در حالی که بقیه وید یو ثابت میماند. البته هنوز دسترسی عموم نداره و قراره کم کم دسترسی بدن اگر علاقه مند بودید ازش استفاده کنید .
توئیتر : @pika_labs
Stability AI
این شرکت هم اومده یک فیچری را داده که شما یک عکس دوبعدی بهش میدید این میتونه اون رو به عنوان یک عکس سه بعدی ببینه و شما میتونید دوربینو هر جور که میخوایید دور اون عکس دوبعدی تغییر بدید ولی خب باید دقت کرد که هنوز به طور دقیق در نمیاد تصاویر ولی خب جا برای پیشرفت زیاده داره ، نکته ای که وجود داره این مدل اوپن سورسه یعنی شما میتونید مقالش رو بخونید و توی گیت هاب به کدش دسترسی داشته باشید .
لینک مربوطه :
Kling AI:
این ابزار جدید توانسته ویدیوهای بسیار با کیفیت و طبیعی تولید کند که توجه بسیاری را جلب کرده است. و میتونیم ببینیم که حتی دیگه دوربین هم ثابت نیست و دوربین هم حرکت داره و خیلی واقعی ترش کرده.
توئیتر : @isaachorror
اخبار در زمینه رباتیک و دستگاهها
BigScreen
این شرکت عینک واقعیت مجازی جدیدی را معرفی کرده است که بسیار کوچکتر و جمع و جورتر از عینک های فعلی است. این عینک قابلیتهای زیادی دارد و برای گیمینگ و کارکردن مناسب است. و از طرفی خیلی کیفیت خوبی داره 116 درجه field of viewداره .
لینک توئیتر : @BigscreenVR
Amazon
درمورد تاکسی های خودران آمازون هم تاکسی خودش رو داره تست میکنه تو لس انجلس به نام زوکس الان تو لس انجلس خیلی تاکسی های خودران مثل ویمو، اوبرو خیلی دارن آزمایش میشوند.
لینک مربوطه :
Kawasaki
یک وسیله نقلیه دیگه هم که خیلی جالبه شرکت ژاپنی به نام کاوازاکی اومده این رباتو نشون داده که یه جورایی انگار مثل یه اسپه یا موجوده چهارپاهه که آدم سوارش میشه و یه جورایی اسپ و موتوره که شخص میتونه سوارش بشه و هنوز در مرحله تست هست ولی خب اینجا نشون داده شده خیلی چیز جالبیه گفته که موتور هیدروژنی داره و مجهز به AI هستش .
لینک توئیتر : @MyLordBebo
ربات جدید گوگل
گوگل یک ربات جدید معرفی کرده که می تواند تصاویر را روی دیوار یا زمین پروژکت کند و با افراد ارتباط برقرار کند. این ربات دارای میکروفن و اسپیکر است و میتواند در محیطهای مختلف آموزشی یا خانگی استفاده شود.
لینک مربوطه :























