ਸੇਮਲਟ: ਪੀਐਚਪੀ ਵੈੱਬ ਪੇਜ ਨੂੰ ਸਕ੍ਰੈਪਿੰਗ ਕਰਨ ਦੇ 3 ਕਦਮ

ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ, ਜਿਸ ਨੂੰ ਵੈਬ ਡੇਟਾ ਕੱractionਣ ਜਾਂ ਵੈਬ ਕਟਾਈ ਵੀ ਕਹਿੰਦੇ ਹਨ, ਇੱਕ ਵੈਬਸਾਈਟ ਜਾਂ ਬਲਾੱਗ ਤੋਂ ਡੇਟਾ ਕੱractਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ. ਫਿਰ ਇਹ ਜਾਣਕਾਰੀ ਮੈਟਾ ਟੈਗ, ਮੈਟਾ ਵਰਣਨ, ਕੀਵਰਡ ਅਤੇ ਕਿਸੇ ਸਾਈਟ ਨਾਲ ਲਿੰਕ ਸੈਟ ਕਰਨ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ, ਸਰਚ ਇੰਜਨ ਦੇ ਨਤੀਜਿਆਂ ਵਿੱਚ ਇਸਦੀ ਸਮੁੱਚੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ.

ਡੇਟਾ ਨੂੰ ਖਤਮ ਕਰਨ ਲਈ ਦੋ ਮੁੱਖ ਤਕਨੀਕਾਂ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ:

  • ਦਸਤਾਵੇਜ਼ ਪਾਰਸ ਕਰਨਾ - ਇਸ ਵਿੱਚ ਇੱਕ ਐਕਸਐਮਐਲ ਜਾਂ HTML ਦਸਤਾਵੇਜ਼ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਜੋ DOM (ਦਸਤਾਵੇਜ਼ ਆਬਜੈਕਟ ਮਾਡਲ) ਫਾਈਲਾਂ ਵਿੱਚ ਤਬਦੀਲ ਹੋ ਜਾਂਦੇ ਹਨ. PHP ਸਾਨੂੰ ਮਹਾਨ DOM ਐਕਸਟੈਂਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ.
  • ਨਿਯਮਤ ਸਮੀਕਰਨ - ਇਹ ਨਿਯਮਿਤ ਸਮੀਕਰਨ ਦੇ ਰੂਪ ਵਿੱਚ ਵੈਬ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚੋਂ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨ ਦਾ ਇੱਕ ਤਰੀਕਾ ਹੈ.

ਤੀਜੀ ਧਿਰ ਦੀ ਵੈਬਸਾਈਟ ਦੇ ਸਕ੍ਰੈਪਿੰਗ ਡੇਟਾ ਦਾ ਮੁੱਦਾ ਇਸ ਦੇ ਕਾਪੀਰਾਈਟ ਨਾਲ ਸਬੰਧਤ ਹੈ ਕਿਉਂਕਿ ਤੁਹਾਡੇ ਕੋਲ ਇਸ ਡੇਟਾ ਨੂੰ ਵਰਤਣ ਦੀ ਅਨੁਮਤੀ ਨਹੀਂ ਹੈ. ਪਰ ਪੀਐਚਪੀ ਦੇ ਨਾਲ, ਤੁਸੀਂ ਕਾੱਪੀਰਾਈਟਸ ਜਾਂ ਘੱਟ ਕੁਆਲਟੀ ਨਾਲ ਜੁੜੀਆਂ ਸਮੱਸਿਆਵਾਂ ਤੋਂ ਬਿਨਾਂ ਆਸਾਨੀ ਨਾਲ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰ ਸਕਦੇ ਹੋ. ਇੱਕ ਪੀਐਚਪੀ ਪ੍ਰੋਗਰਾਮਰ ਹੋਣ ਦੇ ਨਾਤੇ, ਤੁਹਾਨੂੰ ਕੋਡਿੰਗ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ ਵੱਖ ਵੱਖ ਵੈਬਸਾਈਟਾਂ ਤੋਂ ਡਾਟਾ ਦੀ ਜ਼ਰੂਰਤ ਹੋ ਸਕਦੀ ਹੈ. ਇੱਥੇ ਅਸੀਂ ਸਮਝਾਇਆ ਹੈ ਕਿ ਕਿਵੇਂ ਦੂਜੀਆਂ ਸਾਈਟਾਂ ਤੋਂ ਡਾਟੇ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ, ਪਰ ਇਸਤੋਂ ਪਹਿਲਾਂ, ਤੁਹਾਨੂੰ ਇਹ ਯਾਦ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਅੰਤ ਵਿੱਚ ਤੁਸੀਂ ਜਾਂ ਤਾਂ index.php ਜਾਂ scrape.js ਫਾਈਲਾਂ ਪ੍ਰਾਪਤ ਕਰੋਗੇ.

ਕਦਮ 1: ਵੈਬਸਾਈਟ URL ਨੂੰ ਦਾਖਲ ਕਰਨ ਲਈ ਫਾਰਮ ਬਣਾਓ:

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਤੁਹਾਨੂੰ ਸਬਮਿਟ ਬਟਨ ਤੇ ਕਲਿਕ ਕਰਕੇ index.php ਵਿੱਚ ਫਾਰਮ ਬਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪਿੰਗ ਲਈ ਵੈਬਸਾਈਟ URL ਦਾਖਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ.

<ਫਾਰਮ methodੰਗ = "ਪੋਸਟ" ਨਾਮ = "ਸਕ੍ਰੈਪ_ਫੌਰਮ" ਆਈਡੀ = "ਸਕ੍ਰੈਪ_ਫੌਰਮ" ਐਕਟੀ>

ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨ ਲਈ ਵੈਬਸਾਈਟ URL ਦਾਖਲ ਕਰੋ

<ਇਨਪੁਟ ਕਿਸਮ = "ਇਨਪੁਟ" ਨਾਮ = "ਵੈਬਸਾਈਟ_ url" id = "Website_url">

<ਇੰਪੁੱਟ ਟਾਈਪ = "ਸਬਮਿਟ" ਨਾਮ = "ਸਬਮਿਟ" ਵੈਲਿ "=" ਸਬਮਿਟ "> ਕਰੋ

</for>

ਕਦਮ 2: ਵੈਬਸਾਈਟ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਪੀਐਚਪੀ ਫੰਕਸ਼ਨ ਬਣਾਓ:

ਦੂਜਾ ਕਦਮ ਹੈ scrape.php ਫਾਈਲ ਵਿਚ ਪੀਐਚਪੀ ਫੰਕਸ਼ਨ ਸਕ੍ਰੈਪਸ ਬਣਾਉਣਾ ਕਿਉਂਕਿ ਇਹ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਅਤੇ ਯੂਆਰਐਲ ਦੀ ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਵਿਚ ਸਹਾਇਤਾ ਕਰੇਗਾ. ਇਹ ਤੁਹਾਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਮੁੱਦੇ ਦੇ ਵੱਖਰੇ ਸਰਵਰਾਂ ਅਤੇ ਪ੍ਰੋਟੋਕਾਲਾਂ ਨਾਲ ਜੁੜਨ ਅਤੇ ਸੰਚਾਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਵੇਗਾ.

ਫੰਕਸ਼ਨ ਸਕ੍ਰੈਪਸਾਈਟ ਸਾਈਟ (_ Website_url) {

ਜੇ (! function_exists ('curl_init')) {

ਡਾਇ ('ਸੀਆਰਐਲ ਸਥਾਪਤ ਨਹੀਂ ਹੈ. ਕਿਰਪਾ ਕਰਕੇ ਸਥਾਪਤ ਕਰੋ ਅਤੇ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ ਕਰੋ.');

}

; curl = curl_init ();

curl_setopt (l curl, CURLOPT_URL, $ Website_url);

curl_setopt (l ਕਰਲ, CURLOPT_RETURNTRANSFER, ਸਹੀ);

$ ਆਉਟਪੁੱਟ = curl_exec (l curl);

curl_close (l curl);

ਵਾਪਸੀ $ ਆਉਟਪੁੱਟ;

}

ਇੱਥੇ, ਅਸੀਂ ਦੇਖ ਸਕਦੇ ਹਾਂ ਕਿ ਕੀ PHP cURL ਸਹੀ ਤਰ੍ਹਾਂ ਸਥਾਪਤ ਕੀਤੀ ਗਈ ਹੈ ਜਾਂ ਨਹੀਂ. ਫੰਕਸ਼ਨ ਏਰੀਆ ਵਿਚ ਤਿੰਨ ਮੁੱਖ ਸੀ ਆਰ ਐਲ ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਪਵੇਗੀ ਅਤੇ ਕਰਲ_ਇਨਿਟ () ਸੈਸ਼ਨਾਂ ਨੂੰ ਅਰੰਭ ਕਰਨ ਵਿਚ ਸਹਾਇਤਾ ਕਰੇਗੀ, curl_exec () ਇਸ ਨੂੰ ਚਲਾਉਣ ਵਿਚ ਸਹਾਇਤਾ ਕਰੇਗੀ ਅਤੇ curl_close () ਕੁਨੈਕਸ਼ਨ ਬੰਦ ਕਰਨ ਵਿਚ ਸਹਾਇਤਾ ਕਰੇਗੀ. ਵੇਰੀਏਬਲ ਜਿਵੇਂ ਕਿ CURLOPT_URL ਵੈਬਸਾਈਟ ਯੂਆਰਐਲ ਨੂੰ ਸੈਟ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ ਜਿਸਦੀ ਸਾਨੂੰ ਚੂਰਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਹੈ. ਦੂਜਾ ਸੀਆਰਓਲਓਪੀਈਆਰਈਆਰਟੀਆਰਆਰਐਨਐਫਆਰਐਰਏਪ ਪੰਨਿਆਂ ਨੂੰ ਇਸਦੇ ਮੂਲ ਰੂਪ ਦੀ ਬਜਾਏ ਪਰਿਵਰਤਨਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਸਟੋਰ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰੇਗਾ, ਜੋ ਆਖਰਕਾਰ ਪੂਰੇ ਵੈੱਬ ਪੇਜ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰੇਗਾ.

ਕਦਮ 3: ਵੈਬਸਾਈਟ ਤੋਂ ਖ਼ਾਸ ਡੇਟਾ ਨੂੰ ਖਤਮ ਕਰੋ:

ਇਹ ਤੁਹਾਡੇ PHP ਫਾਈਲ ਦੀਆਂ ਕਾਰਜਕੁਸ਼ਲਤਾਵਾਂ ਨੂੰ ਸੰਭਾਲਣ ਅਤੇ ਤੁਹਾਡੇ ਵੈਬ ਪੇਜ ਦੇ ਖਾਸ ਭਾਗ ਨੂੰ ਖਤਮ ਕਰਨ ਦਾ ਸਮਾਂ ਹੈ. ਜੇ ਤੁਸੀਂ ਕਿਸੇ ਵਿਸ਼ੇਸ਼ ਯੂਆਰਐਲ ਤੋਂ ਸਾਰਾ ਡੇਟਾ ਨਹੀਂ ਚਾਹੁੰਦੇ, ਤਾਂ ਤੁਹਾਨੂੰ CURLOPT_RETURNTRANSFER ਵੇਰੀਏਬਲ ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਉਹਨਾਂ ਭਾਗਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਸੀਂ ਖਤਮ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ.

ਜੇ (ਆਈਸੈੱਟ ($ _ ਪੋਸਟ ['ਸਬਮਿਟ'])) {

t html = ਸਕ੍ਰੈਪਵੈਬਸਾਈਟਡਾਟਾ ($ _ ਪੋਸਟ ['ਵੈਬਸਾਈਟ_ਉਰਲ']);

$ start_Point = strpos (t html, 'ਤਾਜ਼ਾ ਪੋਸਟਾਂ');

$ end_Point = strpos (os html, '', $ start_Point);

$ ਲੰਬਾਈ = $ ਅੰਤ_ ਪੁਆਇੰਟ $ ਸ਼ੁਰੂਆਤ_ ਬਿੰਦੂ;

t html = ਸਬਸਟਰ (str html, $ start_ point,, ਲੰਬਾਈ);

ਇਕੋ $ ਐਚਟੀਐਮਐਲ;

}

ਅਸੀਂ ਤੁਹਾਨੂੰ ਇਹਨਾਂ ਕੋਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਜਾਂ PHP ਅਤੇ ਨਿਯਮਿਤ ਸਮੀਕਰਨ ਦੇ ਮੁ knowledgeਲੇ ਗਿਆਨ ਨੂੰ ਵਿਕਸਿਤ ਕਰਨ ਦਾ ਸੁਝਾਅ ਦਿੰਦੇ ਹਾਂ ਜਾਂ ਕਿਸੇ ਨਿੱਜੀ ਬਲੌਗ ਜਾਂ ਵੈਬਸਾਈਟ ਨੂੰ ਆਪਣੇ ਉਦੇਸ਼ਾਂ ਲਈ ਖਤਮ ਕਰਦੇ ਹਾਂ.