Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του

**nnn** · 24-04-17, 19:23

Το Internet Archive ανακοίνωσε πως πλέον θα αγνοεί τα αρχεία robots.txt όταν αποθηκεύει ένα αντίγραφο ενός site. Τα αρχεία robots.txt έχουν σαν κύρια λειτουργία την ενημέρωση των μηχανών αναζήτησης, για το ποιά μέρη ενός ιστότοπου θα ταξινομηθούν από αυτές.

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: internet-archive-server-640x0.jpg
Εμφανίσεις: 230
Μέγεθος: 139,6 KB
ID: 182618

“Over time we have observed that the robots.txt files that are geared toward search engine crawlers do not necessarily serve our archival purposes,” stated a blog post that the organization published last week. “Internet Archive’s goal is to create complete ‘snapshots’ of web pages, including the duplicate content and the large versions of files.”

Robots.txt files are increasingly being used to remove entire domains from search engines following their transition from a live, accessible site to a parked domain. If a site goes out of business, and is rendered inaccessible in this way, it also becomes unavailable for viewing via the Internet Archive’s Wayback Machine. The organization apparently receives queries about these sites on a daily basis.

Αυτή η τακτική ακολουθείται ήδη στις σελίδες της κυβέρνησης και του στρατού των ΗΠΑ, από το Internet Archive, χωρίς να έχουν εμφανιστεί προβλήματα.

Πηγή: Digital Trends

**DVader** · 24-04-17, 19:38

Ναι ε...?
Με το έτσι θέλω θα αποθηκεύει μια σελίδα.... BAN BAN BAN

eyw · 24-04-17, 20:03

Αμα είναι free η σελίδα γιατί όχι?

**pgge3** · 24-04-17, 20:56

Ειμαι της προσωπικής γνώμης ότι οποιος δεν θέλει να του κάνουν οι μηχανές αναζήτησης index απλώς βάζει ένα αρχείο htpasswd και την αντίστοιχη οδηγία στο htaccess για να ζητάει όνομα χρήστη και κωδικό για την πρόσβαση στο site.

turboirc · 24-04-17, 21:03

Δεν νομίζω κανένας να μην έχει καταλάβει ότι το robots.txt είναι ψιλοάχρηστο.

**DVader** · 24-04-17, 21:16

Αρχικό μήνυμα από turboirc

Δεν νομίζω κανένας να μην έχει καταλάβει ότι το robots.txt είναι ψιλοάχρηστο.

Η Google πάντως το διαβάζει ..Από όσο ξέρω...........

turboirc · 24-04-17, 21:31

Και για ποιο λογο να θες να κρυψεις κατι απο την google (και την καθε google) και να μην εχεις απλα access control.

**pgge3** · 24-04-17, 21:43

Αν και βγαίνουμε ελαφρώς εκτός θέματος το robots.txt έχει να κάνει με το crawling μιας Ιστοσελίδας όχι με το Index της. Μπορεί κάλιστα να γίνει indexed μια Ιστοσελίδα ακόμη και αν έχει το robots.txt. Επίσης το robots.txt είναι απλώς μια οδηγία προς τις μηχανές αναζήτησης. Είναι στην ευχέρεια μιας υπηρεσίας αν θα το σεβαστεί. Απο Google Webmaster Tools

Υπάρχουν τα meta tags NOINDEX και NOFOLLOW για να μην γίνεται Index μιας ιστοσελίδας ή σελίδων αλλά και πάλι πολλές μηχανές αναζήτησης το αγνοούν.

**DVader** · 24-04-17, 23:16

Αρχικό μήνυμα από pgge3

Αν και βγαίνουμε ελαφρώς εκτός θέματος το robots.txt έχει να κάνει με το crawling μιας Ιστοσελίδας όχι με το Index της. Μπορεί κάλιστα να γίνει indexed μια Ιστοσελίδα ακόμη και αν έχει το robots.txt. Επίσης το robots.txt είναι απλώς μια οδηγία προς τις μηχανές αναζήτησης. Είναι στην ευχέρεια μιας υπηρεσίας αν θα το σεβαστεί. Απο Google Webmaster Tools

Υπάρχουν τα meta tags NOINDEX και NOFOLLOW για να μην γίνεται Index μιας ιστοσελίδας ή σελίδων αλλά και πάλι πολλές μηχανές αναζήτησης το αγνοούν.

Θα συμφωνήσω 100% με ότι λές !

- - - Updated - - -

Αρχικό μήνυμα από turboirc

Και για ποιο λογο να θες να κρυψεις κατι απο την google (και την καθε google) και να μην εχεις απλα access control.

Δεν είναι θέμα να κρύψω... Σε ένα site μπορέι να θέλω να επιτρέπω το crawling στις σελίδες του επισκέπτη αλλά να μην θέλω να γίνουν crawl οι σελίδες του admin ή να μην επιτρέπω την πρόσβαση σε φακέλους που περιέχουν κώδικα που καλείται από σελίδες...
htaccess ναι στον admin μπορώ να βάλω αλλά αν βάλω σε φακέλους που περιέχουν classes που καλούνται από σελίδες του επισκέπτη θα του βγάζει για user/pass ... Ακόμα και αν υπάρχει λύση με το htaccess γενικά η φιλοσοφία πέραν για security δεν είναι σωστή για την συγκεκριμένη χρήση !

Το σωστό είναι το robots.txt και ένα Disallow εκεί που που θέλεις και τέλος ...αλλά δυστυχώς δεν το ακούν όλες οι μηχανές και κακώς για μένα !

Όπως και να έχει είναι πονεμένη ιστορία αυτό ... Πάντως για την ιστορία εκτός από google και συναφή ... όταν έχω να κάνω με κακόβουλα robots τραβάω ban στο firewall και τέλος ...και ας μην ακούνε .... τίποτα...

Κακό του κεφαλιού τους..

**~~aiolos.01~~** · 25-04-17, 03:25

To robots.txt είναι κάτι σαν το do not track. Δεν το επιβάλει κανείς, είναι απλά μια προτίμηση.

turboirc · 25-04-17, 08:30

Αρχικό μήνυμα από DVader

Θα συμφωνήσω 100% με ότι λές !

- - - Updated - - -

Δεν είναι θέμα να κρύψω... Σε ένα site μπορέι να θέλω να επιτρέπω το crawling στις σελίδες του επισκέπτη αλλά να μην θέλω να γίνουν crawl οι σελίδες του admin ή να μην επιτρέπω την πρόσβαση σε φακέλους που περιέχουν κώδικα που καλείται από σελίδες...
htaccess ναι στον admin μπορώ να βάλω αλλά αν βάλω σε φακέλους που περιέχουν classes που καλούνται από σελίδες του επισκέπτη θα του βγάζει για user/pass ... Ακόμα και αν υπάρχει λύση με το htaccess γενικά η φιλοσοφία πέραν για security δεν είναι σωστή για την συγκεκριμένη χρήση !

Το σωστό είναι το robots.txt και ένα Disallow εκεί που που θέλεις και τέλος ...αλλά δυστυχώς δεν το ακούν όλες οι μηχανές και κακώς για μένα !

Όπως και να έχει είναι πονεμένη ιστορία αυτό ... Πάντως για την ιστορία εκτός από google και συναφή ... όταν έχω να κάνω με κακόβουλα robots τραβάω ban στο firewall και τέλος ...και ας μην ακούνε .... τίποτα...

Κακό του κεφαλιού τους..

Οτιδηποτε σχετικο με ασφαλεια ειναι 100% λαθος να χρησιμοποιειται το robots.txt.
Αν εχεις κανει τετοιο σχεδιασμο ειναι περα για περα μη ασφαλης.
Οι admin pages πρεπει να προστατευονται με access control και οχι φυσικα με ban στην ip.
Οσο για το htaccess ειναι ξεπερασμενη μεθοδος.

**ludist** · 25-04-17, 22:14

Ψιλοβλακεία τους. Έχω μεγάλα αρχεία και δεν θέλω να μου τρώνε latency ή bandwidth. Θα πρέπει να τους βάλω throttle.

Έχω ένα php με '404 not found' και το κάνω link ως index.php, αλλά δεν βοηθάει για τα μεγάλα αρχεία όπως ανέφερα.

Κώδικας:

<?php
header('HTTP/1.0 404 Not Found');
echo "<h1>404 Not Found</h1>";
echo "<p>The page that you have requested could not be found. Try my <a href=\"/index.php\">homepage</a></p>";
exit();
?>

Θέμα: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του

Παρόμοια Θέματα

γενικό πρόβλημα με το internet?

Που αποθηκεύονται τα αρχεία των extensions του Chrome

Πρόβλημα στην ταχύτητα του internet

Το WhatsApp θα μοιράζεται τα δεδομένα των χρηστών του με το Facebook

Wind: αύξηση στην χρήση του δικτύου της τον Αύγουστο, πρωτιά του YouTube

Tags για αυτό το Θέμα

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές