سئو از روزهای پر کردن کلمات کلیدی فاصله زیادی گرفته است. موتورهای جستجوی امروزی مانند گوگل اکنون برای درک جستجوها و تطبیق آنها با محتوای مرتبط به پردازش زبان طبیعی پیشرفته (NLP) متکی هستند.

این مقاله مفاهیم کلیدی NLP برای سئو توضیح می‌دهد تا بتوانید محتوای خود را بهتر بهینه کنید.

  • چگونه ماشین ها زبان انسان را به عنوان سیگنال و نویز پردازش می کنند، نه کلمات و مفاهیم.
  • محدودیت های سمانتیک ایندکس (LSI)
  • نقش رو به رشد موجودیت ها
  • روش‌های نوظهور NLP مانند تطبیق عصبی و BERT برای درک هدف کاربر فراتر از کلمات کلیدی
  • مرزهای جدید مانند مدل های زبان بزرگ (LLM) و نسل افزوده شده با بازیابی (RAG).

دوستان قبل از ادامه این متن دقت داشته باشید این محتوا صرفا جهت اطلاعات بیشتر و نحوه عملکرد NLP، موجودیت‌ها، LLM، LSI و….. منتشر شده است و ممکن است برای شما دوستان کمی خسته کننده یا مبهم باشد. که البته افرادی که به عنوان تئوری یا درک زبان پایتون نیز سررشته دارند قطعا این مفاهیم و مقاله را بهتر میتوانند درک کنند.

دیاکو عزیزی – کارشناس سئو و توسعه دهنده وردپرس

ماشین ها چگونه زبان را می فهمند؟

شروع با یادگیری در مورد چگونگی و چرایی تجزیه و تحلیل و کار ماشین‌ها با متنی که به عنوان ورودی دریافت می‌کنند، مفید است.

وقتی دکمه “E” را روی صفحه کلید خود فشار می دهید، رایانه شما مستقیماً معنی “E” را نمی فهمد. در عوض، پیامی را به یک برنامه سطح پایین می فرستد که به کامپیوتر دستور می دهد چگونه سیگنال های الکتریکی را که از صفحه کلید می آید، دستکاری و پردازش کند.

سپس این برنامه سیگنال را به اقداماتی تبدیل می‌کند که رایانه می‌تواند آن را درک کند، مانند نمایش حرف E بر روی صفحه یا انجام سایر کارهای مربوط به آن.

این توضیح ساده نشان می دهد که رایانه ها با اعداد و سیگنال ها کار می کنند، نه با مفاهیمی مانند حروف و کلمات.

وقتی صحبت از NLP می شود، چالش آموزش این ماشین ها برای درک، تفسیر و تولید زبان انسانی است که ذاتاً ظریف و پیچیده است.

تکنیک‌های بنیادی به رایانه‌ها اجازه می‌دهند تا با تشخیص الگوها و روابط بین این نمایش‌های عددی کلمات، «درک» متن را شروع کنند. آنها عبارتند از:

  • توکن سازی، که در آن متن به بخش های تشکیل دهنده (مانند کلمات یا عبارات) تجزیه می شود.
  • برداری، که در آن کلمات به مقادیر عددی تبدیل می شوند.

نکته این است که الگوریتم‌ها، حتی الگوریتم‌های بسیار پیشرفته، کلمات را به عنوان مفاهیم یا زبان درک نمی‌کنند. آنها را به عنوان سیگنال و نویز می بینند.

کلمات کلیدی LSI: افسانه ها و واقعیت ها

نمایه سازی معنایی پنهان (LSI) اصطلاحی است که در محافل سئو بسیار مورد استفاده قرار می گیرد. ایده این است که کلمات یا عبارات خاصی از نظر مفهومی با کلمه کلیدی اصلی شما مرتبط هستند و گنجاندن آنها در محتوای شما به موتورهای جستجو کمک می کند تا صفحه شما را بهتر درک کنند.

به زبان ساده، LSI مانند یک سیستم مرتب سازی کتابخانه ای برای متن عمل می کند. در دهه 1980 توسعه یافت و به رایانه ها در درک ارتباط بین کلمات و مفاهیم در مجموعه ای از اسناد کمک می کند.

اما «مجموعه اسناد» کل فهرست گوگل نیست. LSI تکنیکی بود که برای یافتن شباهت ها در گروه کوچکی از اسناد مشابه یکدیگر طراحی شده بود.

این کار به این صورت است: فرض کنید در حال تحقیق در مورد “تغییر آب و هوا” هستید. یک جستجوی کلیدواژه اصلی ممکن است اسنادی را به شما ارائه دهد که “تغییر آب و هوا” به صراحت ذکر شده است.

اما در مورد آن قطعات ارزشمندی که درباره «گرمایش جهانی»، «ردپای کربن» یا «گازهای گلخانه‌ای» بحث می‌کنند، چطور؟

اینجاست که LSI به کار می آید. این عبارات مرتبط معنایی را شناسایی می‌کند و تضمین می‌کند که اطلاعات مربوطه را از دست نمی‌دهید، حتی اگر عبارت دقیق استفاده نشده باشد.

نکته اینجاست که گوگل از تکنیک کتابخانه دهه 1980 برای رتبه بندی محتوا استفاده نمی کند.تجهیزات پیشرفته‌تری ارتقا داده و از آن‌ها بهره می‌برد.

علیرغم تصور غلط رایج، کلمات کلیدی LSI مستقیماً در سئوی مدرن یا موتورهای جستجو مانند گوگل استفاده نمی شوند. LSI یک اصطلاح قدیمی است و گوگل از چیزی مانند شاخص معنایی استفاده نمی کند.

با این حال، درک معنایی و سایر تکنیک های زبان ماشین می تواند مفید باشد. این تکامل راه را برای تکنیک‌های پیشرفته‌تر NLP برای سئو در هسته نحوه تحلیل و تفسیر محتوای وب امروزی توسط موتورهای جستجو هموار کرده است.

بنابراین، اجازه دهید از کلمات کلیدی فراتر برویم. ما ماشین‌هایی داریم که زبان را به روش‌های عجیبی تفسیر می‌کنند و می‌دانیم که Google از تکنیک‌هایی برای تراز کردن محتوا با درخواست‌های کاربر استفاده می‌کند. اما بعد از تطبیق کلیدواژه اصلی چه چیزی می آید؟

اینجاست که موجودیت ها، تطبیق عصبی و تکنیک های پیشرفته NLP در موتورهای جستجوی امروزی وارد عمل می شوند.

نقش موجودیت یا entities در جستجو

موجودیت سنگ بنای NLP و تمرکز کلیدی برای سئو هستند. گوگل از موجودیت ها به دو روش اصلی استفاده می کند:

  • موجودیت‌های نمودار دانش: اینها موجودیت‌های کاملاً تعریف شده‌ای هستند، مانند نویسندگان مشهور، رویدادهای تاریخی، مکان‌های دیدنی و غیره که در نمودار دانش Google وجود دارند. آنها به راحتی قابل شناسایی هستند و اغلب در نتایج جستجو با قطعه یا پانل های عمومی اطلاعاتی ظاهر می شوند.
  • حروف کوچک: این‌ها توسط Google شناسایی می‌شوند، اما به اندازه کافی برجسته نیستند که یک نقطه اختصاصی در Graph دانش داشته باشند. الگوریتم‌های Google همچنان می‌توانند این موجودیت یا entities، مانند نام‌های کمتر شناخته شده یا مفاهیم خاص مرتبط با محتوای شما را شناسایی کنند.

در صورتی که در رابطه با موجودیت یا entities میخواهید بیشتر بدانید مقاله تغییرات سئو: Gemini و تغییر روش تحقیق کلمات کلیدی با هوش مصنوعی و بخش “Entities یا (موجودیت‌ها) در مرکز قرار خواهند گرفت” را مطالعه کنید و یا برای دقیقتر فهمیدن آن به سایت وبسیما مراجعه کنید که خیلی دقیق و واضح آن را توضیح داده است

دیاکو

درک “وب موجودیت ها یا entities” بسیار مهم است. این به ما کمک می‌کند محتوایی را تولید کنیم که با اهداف و پرسش‌های کاربر همسو باشد، و احتمال اینکه محتوای ما توسط موتورهای جستجو مرتبط تلقی شود، بیشتر می‌شود.

درک شناسایی موجودیت نامگذاری شده

شناسایی موجودیت نامگذاری شده (NER) یک تکنیک NLP است که به طور خودکار موجودیت های نامگذاری شده را در متن شناسایی می کند و آنها را در دسته های از پیش تعریف شده، مانند نام افراد، سازمان ها و مکان ها طبقه بندی می کند.

بیایید این مثال را در نظر بگیریم: “سارا در سال 2016 شرکت Torment Vortex Corp را خرید.”

انسان بدون زحمت تشخیص می دهد:

“سارا” به عنوان یک شخص.
Torment Vortex Corp. به عنوان یک شرکت
“2016” به عنوان یک زمان.

NER راهی برای درک سیستم ها برای درک آن زمینه است

الگوریتم های مختلفی در NER استفاده می شود:

  • سیستم های مبتنی بر قانون: برای شناسایی موجودیت ها بر اساس الگوها به قوانین دست ساز تکیه کنید. اگر شبیه یک تاریخ است، یک تاریخ است. اگر شبیه پول است، قطعا پول است.
  • مدل‌های آماری: این مدل‌ها از یک مجموعه داده برچسب‌گذاری شده یاد می‌گیرند. شخصی به همه ساراها، Torment Vortex Corps و 2016ها به‌عنوان انواع موجودیت مربوطه خود برچسب‌گذاری می‌کند. وقتی متن جدید ظاهر می شود. امیدواریم نام‌ها، شرکت‌ها و تاریخ‌هایی که با الگوهای مشابه همخوانی دارند برچسب‌گذاری شوند. به عنوان مثال می توان به مدل های پنهان مارکوف، مدل های حداکثر آنتروپی و زمینه های تصادفی شرطی اشاره کرد.
  • مدل‌های یادگیری عمیق: شبکه‌های عصبی، شبکه‌های حافظه کوتاه‌مدت و ترانسفورماتورها همگی برای NER برای ثبت الگوهای پیچیده در داده‌های متنی استفاده شده‌اند.

موتورهای جستجوی بزرگ و سریع مانند گوگل احتمالاً از ترکیبی از موارد فوق استفاده می‌کنند و به آنها اجازه می‌دهند در هنگام ورود به اکوسیستم اینترنت نسبت به موجودات جدید واکنش نشان دهند.

در اینجا یک مثال ساده با استفاده از کتابخانه NTLK پایتون برای یک رویکرد مبتنی بر این قانون آورده شده است:

import nltk

from nltk import ne_chunk, pos_tag

from nltk.tokenize import word_tokenize

nltk.download('maxent_ne_chunker')

nltk.download('words')

sentence = "Albert Einstein was born in Ulm, Germany in 1879."

# Tokenize and part-of-speech tagging

tokens = word_tokenize(sentence)

tags = pos_tag(tokens)

# Named entity recognition

entities = ne_chunk(tags)

print(entities)

برای یک رویکرد پیشرفته تر با استفاده از مدل های از پیش آموزش دیده، ممکن است به SpaCy مراجعه کنید:

import spacy

# Load the pre-trained model

nlp = spacy.load("en_core_web_sm")

sentence = "Albert Einstein was born in Ulm, Germany in 1879."

# Process the text

doc = nlp(sentence)

# Iterate over the detected entities

for ent in doc.ents:

    print(ent.text, ent.label_)

این مثال‌ها رویکردهای اساسی و پیشرفته‌تر NER را نشان می‌دهند.

شروع با مدل‌های ساده مبتنی بر قوانین یا آماری می‌تواند بینش‌های اساسی را ارائه دهد، در حالی که استفاده از مدل‌های یادگیری عمیق از پیش آموزش‌دیده، مسیری را برای قابلیت‌های پیچیده‌تر و دقیق‌تر تشخیص موجودیت ارائه می‌دهد.

موجودیت‌ها در NLP، موجودیت‌ها در سئو، و موجودیت‌های نام‌گذاری شده در سئو

Entities یک اصطلاح NLP است که گوگل به دو صورت در جستجو استفاده می کند.

  • برخی از موجودیت‌ها در نمودار دانش وجود دارند (به عنوان مثال، نویسندگان را ببینید).
  • موجودیت‌هایی با حروف کوچک وجود دارند که توسط Google به رسمیت شناخته شده‌اند، اما هنوز این تمایز قائل نشده‌اند. (گوگل می تواند اسامی را تشخیص دهد، حتی اگر افراد مشهوری نباشند.)

درک این وب از موجودیت‌ها می‌تواند به ما در درک اهداف کاربر با محتوای خود کمک کند:

NLP برای سئو

تطبیق عصبی، BERT و سایر تکنیک‌های NLP از Google

تلاش گوگل برای درک تفاوت های ظریف زبان انسان، آن را به اتخاذ چندین تکنیک پیشرفته NLP سوق داده است.

دو مورد از مواردی که در سال های اخیر در مورد آنها صحبت شده است تطبیق عصبی و BERT هستند. بیایید به این بپردازیم که اینها چرا و چگونه جستجو را متحول می کنند.

تطابق عصبی: درک فراتر از کلمات کلیدی

تصور کنید به دنبال “مکان هایی برای خنک شدن در یک روز آفتابی” هستید.

گوگل قدیمی ممکن است در «مکان‌ها» و «روز آفتابی» پیشرفت کرده باشد، که احتمالاً نتایج را برای وب‌سایت‌های آب‌وهوا یا فروشگاه‌های لوازم در فضای باز نشان می‌دهد.

تطابق عصبی را وارد کنید – این مانند تلاش گوگل برای خواندن بین خطوط است، با درک اینکه احتمالاً به دنبال یک پارک یا ساحل هستید.

BERT: تجزیه پرس و جوهای پیچیده

BERT (نمایش رمزگذار دوطرفه از ترانسفورماتورها) یک جهش دیگر به جلو است. اگر تطابق عصبی به گوگل کمک کند بین خطوط بخواند، BERT به آن کمک می کند تا کل داستان را بفهمد.

BERT می تواند یک کلمه را در رابطه با همه کلمات دیگر در یک جمله پردازش کند نه یک به یک به ترتیب. این بدان معنی است که می تواند بافت هر کلمه را با دقت بیشتری درک کند. روابط و ترتیب آنها مهم است.

«بهترین هتل‌های با استخر» و «استخرهای عالی در هتل‌ها» ممکن است تفاوت‌های معنایی ظریفی داشته باشند: به «امروز فقط او را به مدرسه برد» در مقابل «امروز فقط او را به مدرسه برد» فکر کنید.

بنابراین، بیایید در مورد این با توجه به سیستم های قبلی و ابتدایی تر خود فکر کنیم.

یادگیری ماشینی با گرفتن مقادیر زیادی از داده ها، معمولاً با نشانه ها و بردارها (اعداد و روابط بین آن اعداد) و تکرار روی آن داده ها برای یادگیری الگوها کار می کند.

با تکنیک‌هایی مانند تطبیق عصبی و BERT، گوگل دیگر فقط به تطابق مستقیم بین عبارت جستجو و کلمات کلیدی موجود در صفحات وب نمی‌پردازد.

تلاش برای درک هدف پشت پرس و جو و چگونگی ارتباط کلمات مختلف با یکدیگر برای ارائه نتایجی است که واقعاً نیازهای کاربر را برآورده می کند.

به عنوان مثال، جستجوی «درمان‌های سرماخوردگی»، زمینه جستجوی درمان علائم مرتبط با سرماخوردگی را به جای موضوعات «سرماخوردگی» یا «سر» به معنای واقعی کلمه درک می‌کند.

زمینه ای که کلمات در آن به کار می روند و ارتباط آنها با موضوع اهمیت زیادی دارد. این لزوماً به این معنی نیست که پر کردن کلمات کلیدی تما شده است، اما انواع کلمات کلیدی به جزئیات متفاوت است.

شما نباید فقط به رتبه بندی نگاه کنید، بلکه باید ایده ها، پرس و جوها و سوالات مرتبط را برای کامل بودن بررسی کنید. محتوایی که به پرس و جو به شیوه ای جامع و مرتبط با زمینه پاسخ می دهد مورد علاقه همه و خود گوگل است.

درک هدف کاربر در پشت پرس و جوها بسیار مهمتر از همیشه است. تکنیک‌های پیشرفته NLP Google محتوا را با هدف کاربر مطابقت می‌دهد، خواه اطلاعاتی، ناوبری، معاملاتی یا تجاری.

بهینه سازی محتوا برای برآورده کردن این اهداف – با پاسخ به سؤالات و ارائه راهنماها، بررسی ها، یا صفحات محصول در صورت لزوم- می تواند عملکرد جستجو را بهبود بخشد.

اما همچنین درک کنید که چگونه و چرا جایگاه شما برای آن هدف پرس و جو رتبه بندی می شود.

کاربری که به دنبال مقایسه خودروها است، بعید است که خواهان یک دید جانبدارانه باشد، اما اگر مایلید در مورد اطلاعات کاربران صحبت کنید و حیاتی و صادق باشید، به احتمال زیاد در آن نقطه قرار خواهید گرفت. تا بدان موضوع کامل تمرکز کنید.

مدل‌های زبان بزرگ (LLM) و نسل تقویت‌شده بازیابی (RAG)

فراتر از تکنیک‌های سنتی NLP، چشم‌انداز دیجیتال اکنون از مدل‌های زبان بزرگ (LLM) مانند GPT (Generative Pre-trained Transformer) و رویکردهای نوآورانه‌ای مانند تولید تقویت‌شده بازیابی (RAG) استقبال می‌کند.

این فناوری‌ها معیارهای جدیدی را در نحوه درک و تولید زبان انسان توسط ماشین‌ها تعیین می‌کنند.

LLMs: فراتر از درک اولیه

LLM ها مانند GPT بر روی مجموعه داده های وسیعی آموزش دیده اند که طیف وسیعی از متن های اینترنتی را در بر می گیرد. قدرت آنها در توانایی برای پیش بینی کلمه بعدی در یک جمله بر اساس زمینه ارائه شده توسط کلمات قبل از آن است. این توانایی آن‌ها را برای تولید متن‌های به مانند انسان‌ در موضوعات و سبک‌های مختلف بسیار متنوع می‌کند.

با این حال، بسیار مهم است که به یاد داشته باشید که LLM ها اوراکل های همه چیز نیستند. آنها به داده های زنده اینترنتی دسترسی ندارند یا درک ذاتی از حقایق ندارند. در عوض، آنها پاسخ هایی را بر اساس الگوهای آموخته شده در طول آموزش ایجاد می کنند.
بنابراین، در حالی که آنها می توانند متن قابل توجهی منسجم و متنی مناسب تولید کنند، خروجی های آنها باید بررسی شود، به ویژه از نظر دقت و به موقع بودن.

RAG: افزایش دقت با بازیابی

این جایی است که نسل افزوده بازیابی (RAG) وارد عمل می شود. RAG قابلیت های تولیدی LLM ها را با دقت بازیابی اطلاعات ترکیب می کند.

هنگامی که یک LLM پاسخی را ایجاد می کند، RAG با واکشی اطلاعات مربوطه از پایگاه داده یا اینترنت برای تأیید یا تکمیل متن تولید شده مداخله می کند. این فرآیند تضمین می کند که خروجی نهایی روان، منسجم، دقیق و با داده های قابل اعتماد است.

برنامه های کاربردی در سئو

درک و استفاده از این فناوری ها می تواند راه های جدیدی را برای ایجاد و بهینه سازی محتوا باز کند.

با LLM ها، می توانید محتوای متنوع و جذابی تولید کنید که با خوانندگان یکی شود و به سوالات آنها به طور جامع پاسخ دهد.

RAG می‌تواند این محتوا را با اطمینان از صحت واقعی آن و ارتقای اعتبار و ارزش آن برای مخاطب، بیشتر کند.
این همان چیزی است که Search Generative Experience (SGE) است: RAG و LLMs با هم. به همین دلیل است که نتایج “تولید شده” اغلب به متن رتبه بندی نزدیک است و به همین دلیل است که نتایج SGE ممکن است عجیب و غریب یا ترکیبی به نظر برسند.

همه اینها به محتوایی منجر می شود که به سمت متوسط گرایش دارد و تعصبات و کلیشه ها را تقویت می کند. LLM ها که بر روی داده های اینترنتی آموزش دیده اند، خروجی متوسط آن داده ها را تولید می کنند و سپس داده های تولید شده مشابه را بازیابی می کنند. این همان چیزی است که آنها به آن “enshittification” می گویند.

4 روش برای استفاده از تکنیک های NLP در محتوای خود

استفاده از تکنیک های NLP بر روی محتوای خود شامل استفاده از قدرت درک ماشینی برای ارتقای استراتژی سئوی شما است.

نهادهای کلیدی در محتوای خود را شناسایی کنید

از ابزار NLP برای شناسایی موجودیت های نامگذاری شده در محتوای خود استفاده کنید. این می تواند شامل نام افراد، سازمان ها، مکان ها، تاریخ ها و موارد دیگر باشد.

درک نهادهای موجود می تواند به شما کمک کند تا اطمینان حاصل کنید که محتوای شما غنی و آموزنده است و به موضوعات مورد علاقه مخاطبان شما می پردازد. این می تواند به شما کمک کند پیوندهای متنی غنی را در محتوای خود بگنجانید.

نیت کاربر را تجزیه و تحلیل کنید

از NLP برای طبقه بندی هدف جستجوهای مرتبط با محتوای خود استفاده کنید.

آیا کاربران به دنبال اطلاعات هستند، قصد خرید دارند یا به دنبال خدمات خاصی هستند؟ تنظیم محتوای خود برای مطابقت با این اهداف می تواند عملکرد سئوی شما را به میزان قابل توجهی افزایش دهد.

خوانایی و تعامل را بهبود بخشید

ابزارهای NLP می‌توانند خوانایی محتوای شما را ارزیابی کنند و بهینه‌سازی‌هایی را برای دسترسی بیشتر و جذاب‌تر کردن آن برای مخاطبان پیشنهاد کنند.

زبان ساده، ساختار واضح و پیام‌رسانی متمرکز که با تجزیه و تحلیل NLP ارائه شده است، می‌تواند زمان صرف شده در سایت شما را افزایش داده و نرخ پرش را کاهش دهد.

تحلیل معنایی برای بسط محتوا
فراتر از تراکم کلمات کلیدی، تجزیه و تحلیل معنایی می تواند مفاهیم و موضوعات مرتبطی را که ممکن است در محتوای اصلی خود وارد نکرده باشید، کشف کند.

تحلیل معنایی برای بسط محتوا

ادغام این موضوعات مرتبط می تواند محتوای شما را جامع تر کند و ارتباط آن را با جستارهای مختلف جستجو کند. می توانید از ابزارهایی مانند TF:IDF، LDA و NLTK، Spacy و Gensim استفاده کنید.

در زیر چند اسکریپت برای شروع آورده شده است:

استخراج کلمه کلیدی و موجودیت با NLTK پایتون :

import nltk

from nltk.tokenize import word_tokenize

from nltk.tag import pos_tag

from nltk.chunk import ne_chunk

nltk.download('punkt')

nltk.download('averaged_perceptron_tagger')

nltk.download('maxent_ne_chunker')

nltk.download('words')

sentence = "Google's AI algorithm BERT helps understand complex search queries."

# Tokenize and part-of-speech tagging

tokens = word_tokenize(sentence)

tags = pos_tag(tokens)

# Named entity recognition

entities = ne_chunk(tags)

print(entities)

درک هدف کاربر با spaCy

import spacy

# Load English tokenizer, tagger, parser, NER, and word vectors

nlp = spacy.load("en_core_web_sm")

text = "How do I start with Python programming?"

# Process the text

doc = nlp(text)

# Entity recognition for quick topic identification

for entity in doc.ents:

    print(entity.text, entity.label_)

# Leveraging verbs and nouns to understand user intent

verbs = [token.lemma_ for token in doc if token.pos_ == "VERB"]

nouns = [token.lemma_ for token in doc if token.pos_ == "NOUN"]

print("Verbs:", verbs)

print("Nouns:", nouns)

دسته بندی شده در: